Semalt: Semalt: استخراج عناوين URL من صفحات الويب بحساء جميل

Beautiful Soup عبارة عن حزمة Python عالية المستوى تُستخدم لتحليل مستندات XML و HTML. تنشئ مكتبة Soup Python الجميلة شجرة تحليل تُستخدم لاستخراج معلومات مفيدة من لغة توصيف النص التشعبي (HTML). هذه المكتبة متاحة لكل من إصدارات Python 2 و Python 3.

في معظم الحالات ، تجد أنه لا يمكن الوصول إلى بياناتك المستهدفة واستخدامها إلا كجزء من صفحة الويب. في مثل هذه الحالة ، تحتاج إلى استخدام تقنية تجريف الويب هذه التي يمكنها استخراج البيانات بالتنسيقات التي يمكن تحليلها. هذا هو المكان الذي تأتي فيه مكتبة الشوربة الجميلة.

المتطلبات

أنت بحاجة إلى الوحدات الصحيحة لاستخدام مكتبة الشوربة الجميلة. للبدء ، تحتاج إلى تثبيت لغة برمجة Python 2.7 على جهازك. في هذا المنشور ، سوف تتعلم كيفية مسح موقع ويب واستخراج جميع عناوين URL باستخدام الطلبات والحساء الجميل 4. تحليل HTML هو مهمة افعلها بنفسك ، خاصةً بمساعدة فنية من الحساء الجميل.

لماذا استخدام شوربة جميلة؟

Beautiful Soup هي حزمة Python الأعلى تصنيفًا والتي تم استخدامها لكشط مواقع الويب وتحليل علامات HTML منذ عام 2004. مؤخرًا ، استبدل Beautiful Soup 4 Beautiful Soup 3 في الصناعة. لاحظ أن BS4 يعمل على كلا الإصدارين من Python بينما يعمل BS3 على Python 2.7 فقط. تتكون المكتبة من الميزات المدمجة التالية:

  • إمكانية الترميز - لا داعي للذعر بشأن الترميزات بمجرد تثبيت وحدات الحساء الجميلة اللازمة على جهازك. المكتبة مؤتمتة لتحويل المدخلات إلى Unicode والمخرجات إلى UTF-8.
  • إمكانية التنقل - يوفر Soup الجميل طرقًا سهلة الاستخدام للبحث عن شجرة التحليل والتنقل فيها وتعديلها.

كيفية استخدام مكتبة الشوربة الجميلة؟

بعد تثبيت الشوربة الجميلة على جهازك ، يمكنك البدء في استخدام المكتبة. للبدء ، قم باستيراد مكتبة bs4 في بداية كود Python الخاص بك. قم بتمرير المحتوى أو URL إلى Beautiful Soup لإنشاء كائن Soup. ومع ذلك ، لا تجلب المكتبة صفحة الويب الهدف على نفسها. هنا ، يجب عليك إكمال هذه المهمة يدويًا. يمكنك أيضًا جلب صفحات الويب المفضلة بسهولة باستخدام مزيج من Python و Beautiful Soup.

أدوار مكتبة الطلبات

لكشط صفحة ، تحتاج إلى تنزيلها أولاً. يمكنك تنزيل صفحات الويب باستخدام مكتبة الطلبات. تعمل مكتبة الطلبات عن طريق تقديم طلب "GET" إلى خوادم الويب ، والتي بدورها ستقوم بتنزيل محتويات HTML لصفحة الويب المفضلة.

استخراج عناوين المواقع من صفحات الويب

الآن لديك معلومات مفصلة عن مكتبة الشوربة الجميلة. ستساعدك مجموعة مكتبة BS4 و Python على جلب صفحة ويب بسرعة كبيرة. لاستخراج جميع عناوين URL من صفحة الويب المستهدفة ، استخدم طريقة "البحث عن الكل". ستمنحك هذه الطريقة مجموعة من العناصر مع العلامة. من bs4 ، قم باستيراد كل من الحساء الجميل والطلبات. قم بتشغيل التعليمات البرمجية وإدخال موقع ويب أو صفحة ويب لاستخراج عناوين URL منها.

mass gmail