Semalt - Ինչպե՞ս քսել վեբ էջերը:

Գեղեցիկ ապուրը Python- ի գրադարան է, որը լայնորեն օգտագործվում է վեբ-էջերը քերծելու համար ՝ ստեղծելով XML և HTML փաստաթղթերից մանրացված ծառ: Վեբ գրությունը, կայքերից և էջերից տվյալների կորզման տեխնիկա, լայնորեն օգտագործվում է տվյալների վերլուծության և կառավարման ոլորտներում: Շատ դեպքերում Python- ի ծրագրավորման լեզուն տվյալների գիտության մեջ նախապայման է:

Python 3-ը ունի ջարդման գործիքներ և մոդուլներ, որոնք կարող եք դիմել ձեր տվյալների կառավարման նախագծին: Ներկայումս գործում է որպես Գեղեցիկ ապուր 4, այս մոդուլը համատեղելի է ինչպես Python 3-ի, այնպես էլ Python 2.7-ի հետ: Գեղեցիկ ապուր 4 մոդուլն ի վիճակի է նաև ստեղծել փխրուն ծառ ապուրի համար մաղադանոս ծառ: Այս ձեռնարկում դուք կսովորեք, թե ինչպես կարելի է էջը ջարդել և գրված տվյալները գրել CSV ֆայլ:

Սկսել

Սկսելու համար, ձեր համակարգչի վրա տեղադրեք սերվեր կամ տեղական վրա հիմնված Python կոդավորման միջավայր: Ձեր մեքենայի վրա պետք է նաև տեղադրեք գեղեցիկ ապուր և պահանջներ մոդուլ: Երկու մոդուլների հետ աշխատելու գիտելիքը նույնպես անհրաժեշտ նախապայման է: HTML պիտակավորման և կառուցվածքի հետ ծանոթությունը նույնպես լրացուցիչ առավելություն է:

Հասկանալով ձեր տվյալները

Այս համատեքստում, Արվեստի ազգային պատկերասրահի իրական տվյալները կօգտագործվեն, որոնք կօգնեն ձեզ հասկանալ, թե ինչպես օգտագործել Գեղեցիկ ապուր 4. Արվեստի ազգային պատկերասրահը բաղկացած է 120,000 կտորից, որոնք կատարվում են մոտավորապես 13,000 նկարիչների կողմից: Արվեստը հիմնված է Վաշինգտոն քաղաքում (ԱՄՆ):

Վեբ գեղեցիկ տվյալների ապուրով վեբ տվյալների արդյունահանումը այնքան էլ բարդ չէ: Օրինակ, եթե կենտրոնանում եք Z տառի վրա, նշեք և նշեք ցուցակի առաջին անունը: Այս դեպքում առաջին անունն է Zabaglia, Niccola: Հետևողականության համար նշեք էջերի քանակը և վերջին նկարչի անունը այդ էջում:

Ինչպես ներմուծել պահանջներ և գեղեցիկ ապուր գրադարան

Գրադարաններ ներմուծելու համար ակտիվացրեք ձեր Python 3-ի ծրագրավորման միջավայրը: Ստուգեք ՝ համոզվելու համար, որ ձեր ծրագրավորման միջավայրի հետ նույն գրացուցակում եք: Սկսելու համար կատարեք հետևյալ հրամանը: my_env / bin / ակտիվացնել:

Ստեղծեք նոր ֆայլ և սկսեք ներմուծել Գեղեցիկ ապուր և պահանջում գրադարաններ: Հայցադիմումների գրադարանը թույլ կտա ձեզ օգտագործել HTTP- ը ձեր Python- ի ծրագրերի մեջ ՝ ընթեռնելի ձևաչափերով: Մյուս կողմից, գեղեցիկ ապուրը աշխատում է արագ էջերը քերծելու համար: Օգտագործեք bs4- ը Գեղեցիկ ապուր ներմուծելու համար:

Ինչպես հավաքել և վերլուծել վեբ էջ

Հայտերի օգտագործմամբ հավաքեք ձեր առաջին էջի URL- ն: Առաջին էջի URL- ը կփոխանցվի փոփոխական էջին: Կառուցեք BeautifulSoup օբյեկտը Requests- ից և մանրացրեք օբյեկտը Python- ի վերլուծիչից:

Այս ձեռնարկի նպատակն է հղումներ հավաքել և նկարիչների անունները: Օրինակ, կարող եք հավաքել նկարիչների ամսաթվերը և ազգությունը: Windows- ի օգտագործողների համար աջ սեղմեք նկարչի անունը: Այս դեպքում օգտագործեք Zabaglia, Niccola: Mac OS օգտագործողների համար հպեք «CTRL» և կտտացրեք անունը: Կտտացրեք «Ստուգեք տարրը» ընտրացանկը, որը երևում է ձեր էկրանին `վեբ մշակողների գործիքներին մուտք ունենալու համար: Տպեք նկարչի անունները `գեղեցիկ ապուրը արագորեն ծառ թափելու համար:

Ներքեւի հղումները հեռացնելով

Ձեր վեբ էջի ներքևի հղումները հեռացնելու համար ստուգեք DOM- ը `աջ սեղմելով տարրի վրա: Դուք կպարզեք, որ հղումները HTML սեղանի տակ են: Օգտագործելով Գեղեցիկ ապուր, օգտագործեք «տարրալուծման մեթոդը» ՝ մաղադանոս ծառից պիտակները հանելու համար:

Ինչպես քաշել բովանդակությունը պիտակից

Դուք չունեք հաղորդագրություն փակցնելու համար անհրաժեշտ է տպել ամբողջ կապի պիտակը, օգտագործել Գեղեցիկ ապուր `նյութը պիտակից հանելու համար: Կարող եք նաև լուսանկարել նկարիչների հետ կապված URL- ներ ՝ օգտագործելով Beautiful Soup 4:

Գրանցված տվյալների հավաքագրումը CSV ֆայլ

CSV ֆայլը թույլ կտա ձեզ պահել կառուցվածքային տվյալները պարզ տեքստում, ձևաչափ, որն առավելապես օգտագործվում է տվյալների շտեմարանների համար: Խորհուրդ է տրվում Python- ում պարզ տեքստային ֆայլերի կառավարման վերաբերյալ գիտելիքներ:

Վեբ տվյալների արդյունահանումը օգտագործվում է էջերը ջարդելու և տեղեկատվություն ստանալու համար: Ուշադիր եղեք այն կայքերից, որոնցից արդյունահանման մասին տեղեկություն եք ստանում: Որոշ դինամիկ կայքեր սահմանափակում են վեբ տվյալների արդյունահանումը իրենց կայքերում: Գեղեցիկ ապուրով և Python 3-ով էջը գրելը շատ պարզ է: