Back to Question Center
0

סעמאַלט: ניצן פּיטהאָן סקראַפּ וועבסיטעס

1 answers:

וועב סקרייפּינג אויך דיפיינד ווי וועב דאַטן יקסטראַקשאַן איז אַ פּראָצעס פון באקומען דאַטן פון די וועב און אַרויספירן די דאַטע אין ניצלעך פאָרמאַץ. אין רובֿ פאלן, דעם טעכניק איז געוויינט דורך וועבמאַסטערס צו עקסטראַקט גרויס אַמאַונץ פון ווערטפול דאַטן פון וועב זייַטלעך, ווו די סקראַפּעד דאַטן איז געראטעוועט צו Microsoft Excel אָדער היגע טעקע. (קסנומקס) (קסנומקס) ווי צו סקראַפּ אַ וועבזייַטל מיט פּיטהאָן (קסנומקס) (קסנומקס) פֿאַר ביגינערז, פּיטהאָן איז איינער פון די קאַמאַנלי געניצט פּראָגראַממינג שפּראַכן אַז העכסט עמפאַסייזיז אויף קאָד לייענען. דערווייַל, Python is running as Python 2 and Python 3. דעם פּראָגראַממינג שפּראַך פֿעיִקייטן אָטאַמייטיד זכּרון פאַרוואַלטונג און דינאַמיש טיפּ סיסטעם. איצט, Python פּראָגראַממינג שפּראַך אויך פֿעיִקייטן קיבאָרד-באזירט אַנטוויקלונג - double panda game.

פארוואס פּיטהאָן?

געטינג דאַטע פון ​​דינאַמיש וועבסיטעס אַז דאַרף לאָגין איז אַ באַטייַטיק אַרויסרופן פֿאַר פילע וועבמאַסטערס. אין דעם סקרייפּינג טוטאָריאַל, איר וועט לערנען ווי צו סקראַפּ אַ פּלאַץ וואָס ריקווייערז אַ לאָג דערלויבעניש ניצן פּיטהאָן. דאָ איז אַ שריט-דורך-שריט פירן וואָס וועט געבן איר צו פאַרענדיקן די סקרייפּינג פּראָצעס יפישאַנטלי.

טרעטן 1: לערנען טאַרגעט וועבזייטל

צו עקסטראַקט דאַטן פון דינאַמיש וועבסיטעס אַז דאַרפן אַ לאָגין דערלויבעניש, איר דאַרפֿן צו אָרגאַניזירן די פארלאנגט פרטים.

צו באַקומען סטאַרטעד, רעכט גיט אויף "נאמען" און אויסקלייַבן אויף די "דורכקוק עלעמענט" אָפּציע. "נאמען" וועט זיין דער שליסל.

רעכט גיט אויף די "שפּריכוואָרט" ייקאַן און קלייַבן "דורכקוק עלעמענט".

זוך "אָטענטאַקיישאַן_טאָקען" אונטער דעם בלאַט מקור. זאל דיין hidden input tag זיין דיין ווערט. אָבער, עס איז וויכטיק צו טאָן אַז פאַרשידענע וועבסיטעס ניצן פאַרשידענע פאַרבאָרגן אַרייַנשרייַב טאַגס.

עטלעכע וועבסיטעס נוצן פּשוט לאָגין פאָרעם ווען אנדערע נעמען די קאָמפּליצירט פארמען. אויב איר זענען ארבעטן אויף סטאַטיק זייטלעך אַז נוצן קאָמפּליצירט סטראַקטשערז, טשעק דיין בלעטערער 'ס בקשה און צייכן באַטייַטיק וואַלועס און קיז וואָס וועט זיין געניצט צו קלאָץ אין אַ וועבזייטל.

אין דעם שריט, מאַכן אַ סעסיע כייפעץ וואָס וועט לאָזן איר צו פירן אויף די לאָגין סעסיע ווי פּער אַלע דיין ריקוועס. די רגע זאַך צו באַטראַכטן איז יקסטראַקטינג די "סיסף טאָקען" פון דיין ציל-וועב בלאַט. די סימען וועט העלפן איר בעשאַס לאָגין. אין דעם פאַל, נוצן קספּאַטה און לקסמל צו צוריקקריגן די סימען. דורכפירן אַ לאָגין פאַסע דורך שיקן אַ בקשה צו די לאָגין URL.

טרעטן 3: Scraping Data

איצט איר קענען עקסטראַקט דאַטן פון דיין ציל-פּלאַץ. ניצן קספּאַטה צו ידענטיפיצירן דיין ציל עלעמענט און פּראָדוצירן די רעזולטאַטן. צו וואַלאַדייט דיין רעזולטאַטן, קאָנטראָלירן די רעזולטאַט סטאַטוס קאָד פאָרעם יעדער ריקוויירז רעזולטאַטן. אָבער, וועראַפייינג די רעזולטאַטן טאָן ניט געבנ צו וויסן צי די לאָגין פאַסע איז געווען מצליח, אָבער אקטן ווי אַ גראדן.

פֿאַר סקרייפּינג עקספּערץ, עס איז וויכטיק צו טאָן אַז די צוריקקומען וואַלועס פון קספּאַטה יוואַליויישאַן בייַטן. די רעזולטאַטן אָפענגען אויף די קספּאַטה אויסדרוק לויפן דורך די סוף-באַניצער. וויסן פון נוצן רעגולער אויסדרוקן אין קספּאַטה און דזשענערייטינג קספּאַטה אויסדרוקן וועט העלפֿן איר צו עקסטראַקט דאַטן פון זייטלעך אַז דאַרפן לאָגין דערלויבעניש.

מיט פּיטהאָן, איר טאָן ניט דאַרפֿן אַ מנהג צוריק אַרויף פּלאַן אָדער זאָרג וועגן שווער-דיסק קראַשינג. פּיטהאָן יפישאַנטלי יקסטראַקץ דאַטן פון סטאַטיק און דינאַמיש זייטלעך אַז דאַרפן לאָגין דערלויבעניש צו צוטריט צופרידן. נעמען דיין וועב סקרייפּינג דערפאַרונג צו דער ווייַטער גלייַך דורך ינסטאָלינג פּיטהאָן ווערסיע אויף דיין קאָמפּיוטער.

December 22, 2017