Back to Question Center
0

Semalt: 3 Langkah Kanggo PHP Web Page Scraping

1 answers:

Web scraping, uga disebut extraction data web utawa panen web, proses ngetrap data saka situs web utawa blog. Informasi iki banjur digunakake kanggo nyetel meta tags, meta description, keywords lan pranala menyang situs, ningkatake kinerja sakabèhé ing asil mesin telusur.

  • Parsing document - Nglebokake dokumen XML utawa HTML sing diowahi menyang DOM (Document Object Model ) file - sedex rastreamento de pedido. PHP menehi kita ekstensi DOM gedhe.
  • Perangan reguler - Iki minangka cara ngikis data saka dokumen web kanthi bentuk ekspresi reguler.

Masalah karo data scraping situs web pihak katelu gegandhengan karo hak cipta amarga sampeyan ora duwe idin kanggo nggunakake data iki. Nanging kanthi PHP, sampeyan bisa kanthi gampang ngikam data tanpa masalah karo hak cipta utawa kualitas kurang. Minangka programmer PHP, sampeyan butuh data saka situs web sing beda kanggo tujuan kodhe. Kene kita wis jelasake cara kanggo entuk data saka situs liyane kanthi efisien, nanging sadurunge, sampeyan kudu ngelingake yen ing pungkasan sampeyan bisa njupuk file index.php utawa scrape.js. Langkah 3: Nggawe Formulir kanggo ngetik URL Website:

Kaping pisanan, sampeyan kudu nggawe formulir ing index.php kanthi ngeklik tombol Kirim lan ketik URL situs web kanggo ngotot data.



Ketik URL Website Kanggo Scrape Data

Langkah 3: Nggawe Fungsi PHP Kanggo Njupuk Data Website:

Langkah kapindho yaiku nggawe Fungsi PHP mbesuk ing file scrape.php amarga bakal mbantu njaluk data lan nggunakake perpustakaan URL. Sampeyan uga bakal ngidini sampeyan nyambungake lan komunikasi karo server lan protokol sing beda tanpa masalah..

fungsi scrapeSiteData ($ website_url) {

yen (! Function_exists ('curl_init')) {

mati ('cURL ora dipasang. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, bener);

$ output = curl_exec ($ curl);

curl_close ($ curl);

bali $ output;

}

Kene, kita bisa ndeleng manawa PHP mlaku wis diinstal kanthi bener utawa ora. Telung cURL utama kudu digunakake ing area fungsi lan curl_init

bakal mbantu nginisialisasi sesi, curl_exec

bakal nglakokna lan curl_close

bakal mbantu nutup koneksi kasebut. Variabel kayata CURLOPT_URL digunakake kanggo ngeset URL situs web sing kudu di scrape. CURLOPT_RETURNTRANSFER kapindho bakal mbiyantu nyimpen kaca sing di-scrape ing wangun variabel tinimbang wangun sing standar, sing bakal nampilake kabeh kaca web.

Langkah 3: Scrape Specific Data saka Website:

Iku wektu kanggo nangani fungsi PHP file lan scrape bagean tartamtu saka kaca web. Yen sampeyan ora pengin kabeh data saka URL tartamtu, sampeyan kudu ngowahi nggunakake variabel CURLOPT_RETURNTRANSFER lan nyorot bagian sing pengin di scrape.

yen (isset ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Kiriman Paling Anyar');

$ end_point = strpos ($ html, '', $ start_point);

$ panjang = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ panjang);

echo $ html;

}

Kita saranake sampeyan ngembangake kawruh dhasar PHP lan Expression Reguler sadurunge sampeyan nggunakake salah siji kodhe iki utawa ngrekam blog utawa situs web tartamtu kanggo tujuan pribadi.

December 8, 2017