Back to Question Center
0

סעמאַלט: ווי צו נוצן די פּיטהאָן צו סקראַפּ אַ וועבזייטל?

1 answers:

דאַטן פיעסעס אַ קריטיש ראָלע אין ינוועסטאַגיישאַנז, טוט עס עס? עס קען פירן צו אַ נייַע וועג פון קוקן בייַ זאכן און אַנטוויקלען אנדערע ינסייץ. די מערסט נעבעך זאַך איז אַז די דאַטן איר זוכט פֿאַר איז נישט יוזשאַוואַלי גרינג צו פאַרדינען. איר קענען געפֿינען עס אויף די אינטערנעט, אָבער עס קען נישט זיין אין אַ פֿאָרמאַט וואָס איז דאָוונלאָאַדאַבלע. אין אַזאַ פאַל, איר קענען נוצן דעם וועב סקרייפּינג טעכניק צו פּראָגראַם און זאַמלען די דאַטן איר דאַרפֿן.

עס זענען עטלעכע סקרייפּינג אַפּערטונאַטיז און פּראָגראַממינג שפּראַכן וואָס קענען זיין הילף דורך דעם פּראָצעס. דעם אַרטיקל וועט פירן איר אויף ווי צו נוצן די פּיטהאָן שפּראַך צו ברעקל אַ פּלאַץ. איר וועט באַקומען אַ פּלאַץ פון ינסייץ אויף די אָפּעראַציע פון ​​וועב זייַטלעך. איר וועט אויך באַקומען צו פֿאַרשטיין ווי דעוועלאָפּערס סטרוקטור דאַטע אויף קיין וועבזייַטל.

דער בעסטער סטאַרטינג פונט איז צו אראפקאפיע און ינסטאַלירן די אַנאַקאָנדאַ פּיטהאָן דיסטריבוטיאָן אויף דיין קאַמפּיוטינג מאַשין. איר קענען אויך נעמען עטלעכע טוטאָריאַלז אויף די באַסיקס פון דעם פּראָגראַממינג שפּראַך. דער בעסטער פּלאַץ צו שטעלן אַוועק קען זיין קאָדעקאַדעמי ספּעציעל אויב איר האָבן קיין געדאַנק אין דעם פעלד.

דער פירער וועט מאַכן נוצן פון די פּאָלק לאַנד קראַנט ליסטינג פּלאַץ פֿאַר ינמייץ. מיר וועט פירן איר אויף ווי צו נוצן אַ פּיטהאָן שריפט צו עקסטראַקט אַ רשימה פון ינמייץ און באַקומען עטלעכע דאַטן ווי די שטאָט פון וווינאָרט און ראַסע פֿאַר יעדער ינמייט. די גאנצע שריפט וואָס מיר וועלן נעמען איר דורך איז סטאָרד און עפענען אין גיטהוב..דעם איז איינער פון די פאָלקס אָנליין פּלאַטפאָרמס אַז לאָזן ייַנטיילונג פון קאָמפּיוטער קאָודז. די קאָודז האָבן אַ לאַנג רשימה פון קאָמענטאַר וואָס קענען זיין פון גרויס הילף צו איר.

ווען סקרייפּינג קיין פּלאַץ, די ערשטער געצייַג צו קוקן פֿאַר איז אַ וועב בלעטערער. רובֿ פון די בראַוזערז וועט געבן וסערס HTML אינספעקטיאָן מכשירים אַז אַרוישעלפן אין ליפטינג מאָטאָר-בייַ לוקע און געטינג צו פֿאַרשטיין די בלאַט סטרוקטור. דער וועג איר אַקסעס יעדער געצייַג וועריז פון איין בלעטערער צו אנדערן. אָבער, די מיינסטיי איז די 'View בלאַט מקור, און איר קענען באַקומען עס דורך רעכט גיט אויף די בלאַט גלייַך.

ווי איר קוק די HTML מקור פון די בלאַט, עס איז קעדייַיק צו ויסשליסן רשימה די פרטים פון די לינקס צו די ינמייט אין טיש ראָוז. דער ווייַטער שריט איז צו שרייַבן אַ שריפט וואָס מיר וועלן נוצן צו עקסטראַקט דעם אינפֿאָרמאַציע. די צוויי פּיטהאָן פּאַקאַדזשאַז אַז מיר זענען געגאנגען צו נוצן אין די שווער ליפטינג פּראָצעס זענען די שיין זופּ און ריקוועס. מאַכן זיכער איר ינסטאַלירן זיי איידער איר אָנהייבן צו לויפן די קאָד.

די וועב סקרייפּינג שריפט וועט טאָן דרייַ זאכן. די אַרייַננעמען לאָודינג די ליסטינג בלעטער און יקסטראַקשאַן פון לינקס צו די פרטים בלעטער, אַרייַנלאָגירן יעדער דעטאַל בלאַט און יקסטראַקטינג דאַטן, און דרוקן די יקסטראַקטאַד דאַטע דיפּענדינג אויף ווי עס איז געפילטערט ווי די שטאָט פון וווינאָרט און ראַסע. אַמאָל איר פֿאַרשטיין דעם, די ווייַטער שריט איז צו אָנהייבן די קאָדירונג פּראָצעס דורך ניצן די שיין זופּ און ריקוועס.

ערשטער, לאַדזשיקאַללי מאַסע די ינמייט ליסטינג בלאַט ניצן די requests.get URL און דעמאָלט נוצן די שיין זופּ צו בייַטן עס. נאָך דעם, מיר עקסטראַקט די לינק צו די פרטים בלעטער דורך לופּס דורך יעדער רודערן. נאָך פּאַרסינג די ינמייט פרטים, דער ווייַטער שריט איז צו עקסטראַקט די געשלעכט, עלטער, ראַסע, בוקינג צייַט, און נאָמען וואַלועס צו די ווערטערבוך. יעדער ינמייט וועט זיין זיין ווערטערבוך, און אַלע די דיקשאַנעריז וועט זיין אַפּפּענדעד צו די ינמייט ס רשימה. סוף, שלייף איבער די ראַסע און שטאָט וואַלועס איידער איר לעסאָף דרוקן דיין רשימה.

December 7, 2017
סעמאַלט: ווי צו נוצן די פּיטהאָן צו סקראַפּ אַ וועבזייטל?
Reply