Cara Paling Malas dan Gampang Lakukan Web Scraping untuk AGC atau Autoblog

Cara Paling Malas Lakukan Web Scraping

Benar! Ini adalah cara paling malas lakukan web scraping, gak pake mikir bagaimana struktur web target, pokoke ambil datanya…

Karena ini merupakan cara malas, maka kita gunakan saja tool siap pakai dari FiveFilters.org yaitu Full-Text RSS Feeds.

Tool premium ini sangat ampuh untuk lakukan gathering data, cukup masukan alamat url dari suatu rss, maka dia akan otomatis mengambil artikel secara penuh!

Walaupun Full-Text RSS Feeds ini merupakan tool premium, namun Anda bisa mendapatkan secara gratis di sini https://bitbucket.org/fivefilters/full-text-rss Ya… walau hanya versi lawasnya sih… Tapi yakin deh, lumayan keren kok.

Ini penampakan dari Full-Text RSS Feeds versi lawas yang sudah saya pakai:

Ketika saya coba lakukan gathering data dari http://rss.nytimes.com/services/xml/rss/nyt/Technology.xml, RSS tersebut datanya hanya berupa penggalan-penggalan excerpt saja dan hasilnya cukup memuaskan, teryata artikel bisa terbaca secara full content.

Proses gathering data ini tidak selalu berjalan mulus, ada kalanya artikel tidak terbaca sebagaimana mestinya, mungkin scriptnya mumet lihat struktur website yang acak-adut, hihihi…

Karena data yang dihasilkan berupa JSON maka, selain dapat digunakan sebagai aplikasi web base, tentu dapat juga dimanfaatkan sebagai API web service juga. Gimana asyik kan?