Sitemap

Sitemap merupakan file yang berisi daftar alamat halaman atau dokumen dalam sebuah website yang ditunjukan untuk memudahkan web crawler seperti Googlebot menemukan setiap halaman atau dokumen yang ada dalam website tersebut.

Membuat Sitemap

Ada beberapa format sitemap, namun secara umum sitemap dibuat dengan menggunakan format XML, berikut adalah contoh sitemap dengan format XML:

<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.domain.com /</loc>
    <lastmod>2017-01-01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>http://www.domain.com/catalog?item=vacation_hawaii</loc>
    <changefreq>weekly</changefreq>
  </url>
  <url>
    <loc>http://www.domain.com/catalog?item=vacation_new_zealand</loc>
    <lastmod>2008-12-23</lastmod>
    <changefreq>weekly</changefreq>
  </url>
  <url>
    <loc>http://www.domain.com/catalog?item=vacation_newfoundland</loc>
    <lastmod>2008-12-23T18:00:15+00:00</lastmod>
    <priority>0.3</priority>
  </url>
  <url>
    <loc>http://www.domain.com/catalog?item=vacation_usa</loc>
    <lastmod>2008-11-23</lastmod>
  </url>
</urlset>

Setiap file sitemap yang tidak dikompresi maksimal berukuran 50 MB , dan mengandung maksimal 50.000 URL. Jika Anda memiliki file yang lebih besar atau lebih banyak URL, Anda harus memecah daftar tersebut menjadi beberapa sitemap secara terpisah.

Jika Anda memiliki beberapa file sitemap, Anda juga bisa membuat file sitemap index yang berisi alamat file-file sitemap tersebut tentunya, berikut adalah format dari file sitemap index:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Submit Sitemap

Ada beberapa cara agar sitemap yang Anda buat dapat diketahui oleh Googlebot, yaitu:

Sitemap Report

Daftarkan sitemap Anda melalui sitemap report: https://search.google.com/search-console/sitemaps

Robots.txt

Letakan informasi sitemap Anda ke dalam file robots.txt, berikut contohnya:

User-agent: *
Disallow: /search/
Disallow: /private/

Sitemap: http://www.example.com/sitemap.xml

Ping Sitemap

Anda bisa lakukan ping melalui url ini http://google.com/ping?sitemap={url-sitemap}

dan jika ingin lakukan ping ke Bing bisa melalui url ini http://www.bing.com/ping?sitemap={url-sitemap}

 

Incognito Mode Google Chrome Browser

If you don’t want Google Chrome to remember your activity, you can browse the web privately in Incognito mode.

Ada kalanya aktivitas kita saat browsing ingin agar tidak tersimpan jejaknya pada browser yang digunakan, misalnya informasi data saat pengisian form atau informasi web apa saja yang kita kunjungi… Kan tengsin banget kalau sampe ketauan kita abis buka situs dewasa yah? wkwk…

Nah, karena pada saat browser digunakan dalam keadaan incognito mode tidak mencatat aktivitas, maka hal ini dapat meningkatkan performa browser tersebut, kalau hanya sekedar buka satu dua web dengan aktivitas yang standar tentu tidak akan terasa bedanya.

Bagi Anda yang biasa melakukan web scraping dengan menggunakan metode “meta refresh” tentu bisa menghemat sepersekian detik dari setiap proses yang dilakukan dengan menggunakan incognito mode ini.

Cuma sepersekian detik apa gunanya? Hmmm, biasanya proses pengumpulan data dalam projek web scraping  bukan sekali atau dua kali proses selesai, akan ada ratusan sampai ribuan proses yang akan dilakukan untuk proses pengumpulan datanya, sehingga jika di kalkulasi bisa memangkas waktu yang cukup lumayan tentunya.