सेमल्ट वेब पेजों को खंगालने के लिए 5 कदम बताता है

स्क्रैपी एक खुला स्रोत है और विभिन्न वेबसाइट से जानकारी निकालने के लिए रूपरेखा है। यह एपीआई का उपयोग करता है और पायथन में लिखा गया है। स्क्रेपी को फिलहाल स्क्रैपिंगहब लिमिटेड नाम की एक वेब स्क्रैपिंग कंपनी द्वारा बनाए रखा गया है।

यह एक सरल ट्यूटोरियल है कि कैसे क्रैपी, पार्स क्रेगलिस्ट का उपयोग करके वेब क्रॉलर को लिखें और सीएसवी प्रारूप में जानकारी संग्रहीत करें। इस ट्यूटोरियल के पाँच मुख्य चरण नीचे दिए गए हैं:

1. एक नया स्क्रेपी प्रोजेक्ट बनाएं

2. एक वेबसाइट को क्रॉल करने और डेटा निकालने के लिए एक मकड़ी लिखें

3. कमांड लाइन का उपयोग करके स्क्रैप किए गए डेटा को निर्यात करें

4. लिंक का पालन करने के लिए मकड़ी बदलें

5. मकड़ी के तर्कों का उपयोग करें

1. एक प्रोजेक्ट बनाएं

प्रोजेक्ट बनाने के लिए पहला कदम है। आपको स्क्रेपी डाउनलोड और इंस्टॉल करना होगा। इसकी खोज पट्टी में, आपको निर्देशिका नाम दर्ज करना चाहिए जहां आप डेटा संग्रहीत करना चाहते हैं। स्क्रैपी जानकारी निकालने के लिए अलग-अलग मकड़ियों का उपयोग करता है, और ये मकड़ियों निर्देशिका बनाने के लिए प्रारंभिक अनुरोध करते हैं। मकड़ी को काम करने के लिए, आपको निर्देशिकाओं की सूची पर जाने की जरूरत है और वहां एक विशेष कोड डालना होगा। अपनी वर्तमान निर्देशिका की फ़ाइलों पर नज़र रखें और दो नई फ़ाइलों पर ध्यान दें: उद्धरण-एक और उद्धरण- b.html।

2. वेबसाइट क्रॉल करने और डेटा निकालने के लिए मकड़ी लिखें:

मकड़ी लिखने और डेटा निकालने का सबसे अच्छा तरीका स्क्रेपी के खोल में विभिन्न चयनकर्ताओं का निर्माण करना है। आपको हमेशा उद्धरणों में URL संलग्न करना चाहिए; अन्यथा, स्क्रैपी उन URL की प्रकृति या नामों को तुरंत बदल देगा। आपको एक स्पाइडर को उचित रूप से लिखने के लिए एक URL के आसपास दोहरे उद्धरण चिह्नों का उपयोग करना चाहिए। आपको .extract_first () का उपयोग करना चाहिए और एक इंडेक्स एरर से बचना चाहिए।

3. कमांड लाइन का उपयोग करके स्क्रैप किए गए डेटा को निर्यात करें:

कमांड लाइन का उपयोग करके स्क्रैप किए गए डेटा को निर्यात करना महत्वपूर्ण है। यदि आप इसे निर्यात नहीं करते हैं, तो आपको सटीक परिणाम नहीं मिलेंगे। मकड़ी विभिन्न निर्देशिकाओं को उत्पन्न करेगा जिसमें उपयोगी जानकारी होगी। आपको इस जानकारी को बेहतर तरीके से निर्यात करने के लिए उपज पायथन कीवर्ड का उपयोग करना चाहिए। JSON फ़ाइलों में डेटा आयात करना संभव है। JSON प्रोग्रामर के लिए उपयोगी हैं। JQ जैसे उपकरण बिना किसी समस्या के डेटा को निर्यात करने में मदद करते हैं।

4. लिंक का पालन करने के लिए मकड़ी बदलें:

छोटी परियोजनाओं में, आप मकड़ियों को उचित रूप से लिंक का पालन करने के लिए बदल सकते हैं। लेकिन बड़े आकार के डेटा स्क्रैपिंग प्रोजेक्ट्स के साथ यह आवश्यक नहीं है। जब आप स्पाइडर बदलते हैं तो आइटम पाइपलाइनों के लिए एक प्लेसहोल्डर फ़ाइल स्थापित की जाएगी। यह फ़ाइल ट्यूटोरियल / पाइपलाइनलाइन धारा में स्थित हो सकती है। स्क्रेपी के साथ, आप परिष्कृत मकड़ियों का निर्माण कर सकते हैं और कभी भी उनका स्थान बदल सकते हैं। आप एक बार में कई साइटें निकाल सकते हैं और विभिन्न डेटा निष्कर्षण परियोजनाओं को अंजाम दे सकते हैं।

5. मकड़ी के तर्कों का उपयोग करें:

Parse_author कॉलबैक एक मकड़ी का तर्क है जिसका उपयोग गतिशील वेबसाइटों से डेटा निकालने के लिए किया जा सकता है। आप विशिष्ट कोड के साथ मकड़ियों को कमांड लाइन तर्क भी प्रदान कर सकते हैं। मकड़ी के तर्क कुछ ही समय में मकड़ी के गुण बन जाते हैं और आपके डेटा के समग्र स्वरूप को बदल देते हैं।

इस ट्यूटोरियल में, हमने केवल स्क्रेपी की मूल बातें शामिल कीं। इस उपकरण के लिए बहुत सारी सुविधाएँ और विकल्प हैं। इसके विनिर्देशों के बारे में अधिक जानने के लिए आपको बस स्क्रेपी को डाउनलोड और सक्रिय करना होगा।