Semalt Mencadangkan 5 Langkah Mengikis Halaman Web

Scrapy adalah sumber terbuka dan rangka kerja untuk mengekstrak maklumat dari laman web yang berbeza. Ia menggunakan API dan ditulis dalam Python. Scrapy kini dikendalikan oleh sebuah syarikat pengikis web bernama Scrapinghub Ltd.

Ini adalah tutorial mudah mengenai cara menulis crawler web menggunakan Scrapy, menghurai Craigslist dan menyimpan maklumat dalam format CSV. Lima langkah utama tutorial ini disebutkan di bawah:

1. Buat projek Scrapy baru

2. Tulis labah-labah untuk merangkak laman web dan mengekstrak data

3. Eksport data yang dikikis menggunakan baris perintah

4. Tukar labah-labah untuk mengikuti pautan

5. Gunakan hujah labah-labah

1. Buat projek

Langkah pertama adalah membuat projek. Anda mesti memuat turun dan memasang Scrapy. Di bar cariannya, anda harus memasukkan nama direktori tempat anda ingin menyimpan data. Scrapy menggunakan labah-labah yang berbeza untuk mengekstrak maklumat, dan labah-labah ini membuat permintaan awal untuk membuat direktori. Untuk meletakkan labah-labah berfungsi, anda perlu melawat senarai direktori dan memasukkan kod tertentu di sana. Awasi fail di direktori semasa anda dan perhatikan dua fail baru: quotes-a.html dan quotes-b.html.

2. Tulis labah-labah untuk merangkak laman web dan mengekstrak data:

Kaedah terbaik untuk menulis labah-labah dan mengekstrak data adalah dengan membuat pemilih yang berbeza di cangkang Scrapy. Anda harus selalu memasukkan URL dalam petikan; jika tidak, Scrapy akan mengubah sifat atau nama URL tersebut dengan serta-merta. Anda harus menggunakan tanda petik berganda di sekitar URL untuk menulis labah-labah dengan betul. Anda harus menggunakan.extract_first () dan mengelakkan ralat indeks.

3. Eksport data yang dikikis menggunakan baris arahan:

Penting untuk mengeksport data yang dikikis menggunakan baris perintah. Sekiranya anda tidak mengeksportnya, anda tidak akan mendapat hasil yang tepat. Labah-labah akan menghasilkan direktori yang berbeza yang mengandungi maklumat berguna. Anda harus menggunakan kata kunci hasil Python untuk mengeksport maklumat ini dengan cara yang lebih baik. Mengimport data ke fail JSON adalah mungkin. Fail JSON berguna untuk pengaturcara. Alat seperti JQ membantu mengeksport data yang dikikis tanpa masalah.

4. Tukar labah-labah untuk mengikuti pautan:

Dalam projek kecil, anda boleh menukar labah-labah untuk mengikuti pautan dengan betul. Tetapi tidak diperlukan dengan projek mengikis data bersaiz besar. Fail placeholder untuk Item Pipeline akan disediakan apabila anda menukar labah-labah. Fail ini boleh didapati di bahagian tutorial / pipelines.py. Dengan Scrapy, anda dapat membina labah-labah yang canggih dan mengubah lokasinya kapan saja. Anda boleh mengekstrak beberapa laman web sekaligus dan menjalankan pelbagai projek pengekstrakan data.

5. Gunakan hujah labah-labah:

Panggilan parse_author adalah argumen labah-labah yang boleh digunakan untuk mengekstrak data dari laman web dinamik. Anda juga boleh memberikan argumen baris perintah kepada labah-labah dengan kod tertentu. Argumen labah-labah menjadi atribut labah-labah dalam masa yang singkat dan mengubah keseluruhan data anda.

Dalam tutorial ini, kami hanya merangkumi asas-asas Scrapy. Terdapat banyak ciri dan pilihan untuk alat ini. Anda hanya perlu memuat turun dan mengaktifkan Scrapy untuk mengetahui lebih lanjut mengenai spesifikasinya.