Back to Question Center
0

סעמאַלט מומחה: פּיטהאָן און בעאַוטיפול. סקראַפּ זייטלעך מיט עאַסע

1 answers:

ווען פּערפאָרמינג דאַטע אַנאַליסיס אָדער מאַשין וויסן פראיעקטן, איר זאל דאַרפֿן צו סקראַפּ וועבסיטעס צו באַקומען די דאַטע דארף און פאַרענדיקן דיין פּרויעקט. פּיטהאָן פּראָגראַממינג שפּראַך האט אַ שטאַרק זאַמלונג פון מכשירים און מאַדזשולז וואָס קענען זיין געניצט פֿאַר דעם צוועק. למשל, איר קענען נוצן די בעאַוטיסופּס מאָדולע פֿאַר HTML פּאַרסינג.

דאָ, מיר נעמען אַ קוק בייַ בעאַוטיפסאָופּ און געפינען אויס וואָס עס איז איצט אַזוי וויידלי געניצט אין וועב סקרייפּינג . (קסנומקס) (קסנומקס) BeautifulSoup features (קסנומקס) (קסנומקס) - עס גיט פאַרשידן מעטהאָדס פֿאַר גרינג נאַוויגאַציע, זוכן און מאַדאַפייינג פון פּאַרס ביימער אַזוי אַלאַוז איר צו לייכט דייסעקט אַ דאָקומענט און עקסטראַקט אַלץ איר דאַרפֿן אָן שרייבן צו פיל קאָד.

- עס אויטאָמאַטיש קאַנווערץ אַוטגאָוינג דאקומענטן צו UTF-8 און ינקאַמינג דאָקומענטן צו אוניקאָד - perimeter security co uk. דעם מיטל איר וועט ניט האָבן צו זאָרג וועגן ענקאָדינגז צוגעשטעלט אַז די דאָקומענט האט ספּעסאַפייד אַ קאָדירונג אָדער שיין זופּ קענען אַוטאָדעטעקט עס.

- שיין סאָופּס איז געהאלטן העכער צו אנדערע פאָלקס פּיטהאָן פּאַרסערז אַזאַ ווי הטמל 5 ליב און לקסמל. עס אַלאַוז טריינג פאַרשידענע פּאַרסינג סטראַטעגיעס. איין דיסאַדוואַנטידזשיז פון דעם מאָדולע, אָבער, איז אַז עס גיט מער בייגיקייַט בייַ די קאָסט פון גיכקייַט.

וואָס טוט איר דאַרפֿן צו סקראַטש וועבזייַטל מיט בעאַוטיפול?

צו אָנהייבן ארבעטן מיט שיינערז, איר דאַרפֿן צו האָבן פּיטהאָן פּראָגראַממינג סוויווע (אָדער היגע אָדער סערווער באזירט) אויף דיין מאַשין. פּיטהאָן איז יוזשאַוואַלי פאַר - אינסטאַלירן אין אַס רענטגענ, אָבער אויב איר נוצן Windows, איר דאַרפֿן צו אָפּלאָדירן און ינסטאַלירן די שפּראַך פון דער באַאַמטער וועבזייַטל.

איר זאָל האָבן די בעאַוטיפול און ריקוועס מאַדזשולז אינסטאַלירן.

לעצטנס, זייַענדיק באַקאַנט און באַקוועם ארבעטן מיט HTML טאַגינג און סטרוקטור איז באשטימט נוציק זינט איר וועט זיין ארבעטן מיט וועב-סאָורסעד דאַטן. (קסנומקס) (קסנומקס) ימפּאָרטינג ריקוועס און שעפערישאָופּאָו ליבראַריעס (קסנומקס) (קסנומקס) מיט פּיטהאָן פּראָגראַממינג סוויווע געזונט שטעלן אַרויף, איר קענען איצט שאַפֿן אַ נייַע טעקע (ניצן נאַנאָ, פֿאַר בייַשפּיל) מיט קיין נאָמען איר ווי.

די ריקוועס ביבליאָטעק ינייבאַלז איר צו נוצן אַ מענטש-לייטאַבלע פאָרעם הטטפּ אין דיין פּיטהאָן מגילה בשעת בעאַוטיסופּ זוכט די סקרייפּינג געטאן בייַ אַ פאַסטער גיכקייַט. איר קענען נוצן די אַרייַנפיר ויסזאָגונג צו באַקומען ביידע לייברעריז.

ווי צו זאַמלען און פּאַרץ אַ וועב בלאַט

ניצן די ריקוועס. באַקומען

אופֿן צו זאַמלען די URL פון די וועב בלאַט פון וואָס איר ווילן צו עקסטראַקט דאַטן. ווייַטער, שאַפֿן אַ שיין סאָוס כייפעץ אָדער פּאַרס בוים. דעם כייפעץ נעמט די דאָקומענט פון ריקוועס ווי זייַן אַרמאַמאַנץ און דעמאָלט פּאַרסיז עס. מיט די בלאַט געזאמלט, פּאַרסעד און שטעלן אַרויף ווי אַ בעאַוטיפול זוך, איר קענען דעריבער צו זאַמלען די דאַטן איר דאַרפֿן.

אויב איר ווילט צו זאַמלען וועב דאַטן, איר דאַרפֿן צו וויסן ווי די דאַטן איז באשאפן דורך די דאָקומענט אָבדזשעקט מאָדעל (דאַם) פון די וועבזייטל. אין דיין וועב בלעטערער, ​​רעכט גיט (אויב איר נוצן ווינדאָוז), אָדער קטרל + גיט (אויב ניצן מאַקאָס) אויף איינער פון די זאכן פאָרמינג טייל פון די דאַטן פון אינטערעס. פֿאַר בייַשפּיל, אויב איר ווילן צו ציען אויס דאַטן וועגן סטודענטן 'נאַציאָנאַליטעט, דריקט אויף איינער פון די נעמען פון אַ תּלמיד. א קאָנטעקסט מעניו פּאָפּס אַרויף, און ין עס, איר וועט זען אַ מעניו נומער ענלעך צו ינספּעקט עלעמענט (פֿאַר פירעפאָקס) אָדער ינספּעקט (פֿאַר קראָום). דריקט דעם באַטייַטיק ינספּעקט מעניו נומער, און די וועב דעוועלאָפּער מכשירים וועט זיין דערשייַנען אין דיין בלעטערער.

BeautifulSoup איז אַ פּשוט אָבער שטאַרק HTML פּאַרסינג געצייַג אַז אַלאַוז איר אַ פּלאַץ פון בייגיקייַט ווען סקרייפּינג וועבסיטעס . ווען איר נוצן עס, טאָן ניט פאַרגעסן צו אָבסערווירן די אַלגעמיינע סקראַפּינג כּללים אַזאַ ווי קאָנטראָלירן די תּנאָים און קאָנדיטיאָנס פון די וועבזייַטל; ריווייזינג די פּלאַץ קעסיידער און אַפּדייטינג דיין קאָד ווי פּער די ענדערונגען געמאכט אויף דעם פּלאַץ. ווייל דעם וויסן וועגן סקרייפּינג וועבסיטעס מיט פּיטהאָן און בעאַוטיססאָופּ, איר קענען איצט לייכט באַקומען די וועב דאַטע איר דאַרפֿן פֿאַר דיין פּרויעקט.

December 22, 2017