Semalt: Cum se folosește Python-ul pentru a razi un site web?

Datele joacă un rol esențial în investigații, nu-i așa? Poate duce la un nou mod de a privi lucrurile și de a dezvolta alte perspective. Cel mai nefericit lucru este că datele pe care le căutați nu sunt de obicei disponibile cu ușurință. Îl puteți găsi pe Internet, dar este posibil să nu fie într-un format care se poate descărca. Într-un astfel de caz, puteți utiliza tehnica de răzuire web pentru a programa și a aduna datele de care aveți nevoie.

Există mai multe abordări de razuire și limbaje de programare care pot fi de ajutor în acest proces. Acest articol vă va ghida cu privire la modul de utilizare a limbajului python pentru a resturi un site. Veți obține o mulțime de informații despre funcționarea paginilor web. De asemenea, veți înțelege modul în care dezvoltatorii structurează datele pe orice site web.

Cel mai bun punct de plecare este să descărcați și să instalați Anaconda Python Distribution pe mașina dvs. de calcul. Puteți lua, de asemenea, câteva tutoriale despre elementele de bază ale acestui limbaj de programare. Cel mai bun loc de plecare ar putea fi Codecademy, mai ales dacă nu aveți idee în acest domeniu.

Acest ghid va folosi site-ul de listare actuală a țării Polk pentru deținuți. Vă vom îndruma cum să utilizați un script Python pentru a extrage o listă a deținuților și pentru a obține date precum orașul de reședință și rasa pentru fiecare deținut. Întregul script prin care vă vom prelua este stocat și deschis la GitHub. Aceasta este una dintre cele mai populare platforme online care permit schimbul de coduri de calculator. Codurile au o listă lungă de comentarii care vă pot fi de mare ajutor.

Când razuiți orice site, primul instrument pe care îl căutați este un browser web. Majoritatea browserelor le vor oferi utilizatorilor instrumente de inspecție HTML care ajută la ridicarea trapei motorului și înțelegerea structurii paginii. Modul în care accesați fiecare instrument diferă de la un browser la altul. Cu toate acestea, principalul este „vizualizarea sursei paginii și puteți obține făcând clic dreapta pe pagină direct.

Pe măsură ce vizualizați sursa HTML a paginii, este recomandabil să enumerați în mod corect detaliile linkurilor către deținut în rândurile de tabel. Următorul pas este să scriem un script pe care îl vom folosi pentru a extrage aceste informații. Cele două pachete Python pe care le vom folosi în procesul de ridicare grea sunt Supa și Cererile frumoase. Asigurați-vă că le instalați înainte de a începe să rulați codul.

Scriptul de razuire web va face trei lucruri. Acestea includ încărcarea paginilor de listare și extragerea linkurilor către paginile cu detalii, încărcarea fiecărei pagini de detaliu și extragerea datelor, precum și tipărirea datelor extrase în funcție de modul în care acestea sunt filtrate precum orașul de reședință și cursa. După ce înțelegeți acest lucru, următorul pas este să începeți procesul de codare folosind Supa și Cereri frumoase.

În primul rând, încărcați logic pagina de listare a deținuților folosind URL-ul requests.get și apoi folosiți supa frumoasă pentru a-l urmări. După aceea, extragem linkul către paginile cu detalii, făcând buclă prin fiecare rând. După analizarea detaliilor detinutului, următorul pas este extragerea valorilor de sex, vârstă, rasă, timp de rezervare și nume. Fiecare deținut va primi dicționarul său și toate dicționarele vor fi anexate la lista deținuților. În cele din urmă, treceți peste cursa și valorile orașului înainte să imprimați definitiv lista.

mass gmail