Semalt - วิธีการขูดหน้าเว็บ?

Beautiful Soup เป็นห้องสมุด Python ที่ใช้กันอย่างแพร่หลายในการขูดหน้าเว็บโดยสร้างทรีแยกวิเคราะห์จากเอกสาร XML และ HTML Web scraping เป็นเทคนิคการดึงข้อมูลจากเว็บไซต์และหน้าเว็บซึ่งใช้กันอย่างแพร่หลายในด้านการวิเคราะห์ข้อมูลและการจัดการ ในกรณีส่วนใหญ่ภาษาการเขียนโปรแกรม Python เป็นข้อกำหนดเบื้องต้นในด้านวิทยาศาสตร์ข้อมูล

Python 3 มี เครื่องมือการขูด และโมดูลที่คุณสามารถนำไปใช้กับโครงการจัดการข้อมูลของคุณ ปัจจุบันทำงานเป็น Beautiful Soup 4 โมดูลนี้เข้ากันได้กับ Python 3 และ Python 2.7 โมดูล Soup 4 ที่สวยงามยังสามารถสร้างต้นไม้แยกวิเคราะห์สำหรับซุปแท็กที่ไม่ได้ปิด ในบทช่วยสอนนี้คุณจะได้เรียนรู้วิธีขูดหน้าและเขียนข้อมูลที่คัดลอกไปยังไฟล์ CSV

เริ่มต้นใช้งาน

ในการเริ่มต้นให้ตั้งค่าเซิร์ฟเวอร์หรือสภาพแวดล้อมการเข้ารหัส Python แบบโลคัลบนพีซีของคุณ คุณควรติดตั้งโมดูลซุปที่สวยงามและคำขอบนเครื่องของคุณ ความรู้เกี่ยวกับการทำงานกับทั้งสองโมดูลเป็นสิ่งที่จำเป็นต้องมี ความคุ้นเคยกับการติดแท็กและโครงสร้าง HTML ก็เป็นข้อได้เปรียบเช่นกัน

ทำความเข้าใจกับข้อมูลของคุณ

ในบริบทนี้ข้อมูลจริงจากหอศิลป์แห่งชาติจะถูกใช้เพื่อช่วยให้คุณเข้าใจวิธีการใช้ซุปที่สวยงาม 4. หอศิลป์แห่งชาติประกอบด้วย 120,000 ชิ้นที่จัดทำโดยศิลปินประมาณ 13,000 คน The Art ตั้งอยู่ที่ Washington DC, United States

การสกัดข้อมูลเว็บด้วย Beautiful Soup นั้นไม่ซับซ้อน ตัวอย่างเช่นหากคุณมุ่งเน้นไปที่ตัวอักษร Z ให้ทำเครื่องหมายและจดชื่อในรายการ ในกรณีนี้ชื่อแรกคือ Zabaglia, Niccola เพื่อความสอดคล้องให้ระบุจำนวนหน้าและชื่อศิลปินล่าสุดในหน้านั้น

วิธีการนำเข้าคำขอและห้องสมุดซุปที่สวยงาม

ในการนำเข้าไลบรารีให้เปิดใช้งานสภาพแวดล้อมการเขียนโปรแกรม Python 3 ของคุณ ตรวจสอบให้แน่ใจว่าคุณอยู่ในไดเรกทอรีเดียวกันกับสภาพแวดล้อมการเขียนโปรแกรมของคุณ เรียกใช้คำสั่งต่อไปนี้เพื่อเริ่มต้น my_env / bin / เปิดใช้งาน

สร้างไฟล์ใหม่และเริ่มนำเข้า Beautiful Soup และ Requestests ไลบรารีคำขอจะอนุญาตให้คุณใช้ HTTP ภายในโปรแกรม Python ของคุณในรูปแบบที่อ่านได้ ในทางกลับกันซุปที่สวยงามก็สามารถขูดหน้าได้อย่างรวดเร็ว ใช้ bs4 เพื่อนำเข้าซุปที่สวยงาม

วิธีรวบรวมและแยกหน้าเว็บ

การใช้คำขอรวบรวม URL ของหน้าแรกของคุณ URL ของหน้าแรกจะถูกกำหนดให้กับหน้าตัวแปร สร้างวัตถุ BeautifulSoup จากการร้องขอและแยกวัตถุจากตัวแยกวิเคราะห์ของ Python

ในบทช่วยสอนนี้มีจุดประสงค์เพื่อรวบรวมลิงก์และชื่อศิลปิน ตัวอย่างเช่นคุณสามารถรวบรวมวันที่และสัญชาติของศิลปินได้ สำหรับผู้ใช้ Windows ให้คลิกขวาที่ชื่อศิลปิน ในกรณีนี้ให้ใช้ Zabaglia, Niccola สำหรับผู้ใช้ Mac OS ให้แตะ "CTRL" แล้วคลิกชื่อ คลิกเมนู "ตรวจสอบองค์ประกอบ" ที่ป๊อปอัปบนหน้าจอของคุณเพื่อเข้าถึงเครื่องมือของนักพัฒนาเว็บ พิมพ์ชื่อศิลปินเพื่อให้ Beautiful Soup แยกต้นไม้อย่างรวดเร็ว

การลบลิงค์ด้านล่าง

หากต้องการลบลิงค์ด้านล่างในหน้าเว็บของคุณให้ตรวจสอบ DOM โดยคลิกขวาที่องค์ประกอบ คุณจะระบุว่าลิงก์อยู่ใต้ตาราง HTML ใช้ Beautiful Soup ใช้ "วิธีการย่อยสลาย" เพื่อลบแท็กออกจากแผนผังแยก

วิธีดึงเนื้อหาจากแท็ก

คุณไม่จำเป็นต้องพิมพ์แท็กลิงก์ทั้งหมดใช้ Beautiful Soup เพื่อลบเนื้อหาออกจากแท็ก คุณสามารถจับภาพ URL ที่เกี่ยวข้องกับศิลปินโดยใช้ Beautiful Soup 4

บันทึกข้อมูลที่ถูกคัดลอกไปยังไฟล์ CSV

ไฟล์ CSV จะช่วยให้คุณสามารถจัดเก็บข้อมูลที่มีโครงสร้างในรูปแบบข้อความธรรมดาซึ่งเป็นรูปแบบที่ใช้สำหรับแผ่นข้อมูลเป็นส่วนใหญ่ แนะนำให้มีความรู้เกี่ยวกับการจัดการไฟล์ข้อความธรรมดาใน Python

การดึงข้อมูลเว็บใช้เพื่อขูดหน้าและรับข้อมูล คำนึงถึงเว็บไซต์ที่คุณดึงข้อมูลออกมา บางเว็บไซต์แบบไดนามิก จำกัด การสกัดข้อมูลเว็บบนเว็บไซต์ของพวกเขา การขูดหน้าด้วย Beautiful Soup และ Python 3 นั้นง่ายมาก