बॉट क्या हैं, और उन्हें robots.txt का उपयोग करने से कैसे रोकें?

बॉट क्या हैं? युद्ध के लिए रोबोटिक्स द्वारा इकट्ठे किए जाने के विपरीत, औद्योगिक संयंत्र का उपयोग, या एक वेब बॉट एक डेटाबेस के साथ कोड की सरल रेखा है।

एक वेब या इंटरनेट बॉट सिर्फ एक कंप्यूटर प्रोग्राम है जो इंटरनेट पर चलता है। आम तौर पर, उन्हें कुछ कार्यों जैसे क्रॉलिंग, उपयोगकर्ताओं के साथ चैटिंग आदि करने के लिए प्रोग्राम किया जाता है, जो इंसानों की तुलना में तेज़ी से कर सकते हैं।

क्रॉलर, स्पाइडर या वांडरर्स जैसे सर्च बॉट, Google, Yahoo, Microsoft Bing, Baidu, Yandex जैसे सर्च इंजन द्वारा अपना डेटाबेस बनाने के लिए उपयोग किए जाने वाले कंप्यूटर प्रोग्राम हैं।

बॉट लिंक के माध्यम से साइट के विभिन्न वेब पेजों का पता लगा सकते हैं। फिर, वे वेबसाइटों से सामग्री को डाउनलोड और अनुक्रमित करते हैं; लक्ष्य यह जानना है कि प्रत्येक वेब पेज किस बारे में है; इसे क्रॉलिंग कहा जाता है; यह स्वचालित रूप से वेबसाइटों तक पहुंचता है और प्राप्त करता है आंकड़े।

क्या बॉट आपकी वेबसाइट के लिए हानिकारक हैं?

शुरुआती लोग बॉट्स के बारे में भ्रमित हो सकते हैं; क्या वे वेबसाइट के लिए अच्छे हैं या नहीं? कई अच्छे बॉट, जैसे सर्च इंजन, कॉपीराइट, साइट मॉनिटरिंग, आदि वेबसाइट के लिए महत्वपूर्ण हैं।

खोज इंजन:

साइट को क्रॉल करने से खोज इंजनों को उपयोगकर्ताओं की खोज क्वेरी के जवाब में पर्याप्त जानकारी प्रदान करने में मदद मिल सकती है। यह उपयुक्त वेब सामग्री की सूची तैयार करता है जो किसी भी उपयोगकर्ता द्वारा Google, bing, आदि जैसे खोज इंजनों में खोज करने के बाद दिखाई देती है; परिणामस्वरूप, आपके साइट को अधिक ट्रैफिक मिलेगा।

कॉपीराइट:

कॉपीराइट बॉट वेबसाइटों की सामग्री की जांच करें यदि वे कॉपीराइट कानून का उल्लंघन करते हैं, तो वे कंपनी या कॉपीराइट सामग्री के मालिक किसी व्यक्ति के स्वामित्व में हो सकते हैं। उदाहरण के लिए, ऐसे बॉट इंटरनेट पर टेक्स्ट, संगीत, वीडियो इत्यादि की जांच कर सकते हैं।

निगरानी:

निगरानी बॉट वेबसाइट के बैकलिंक्स, सिस्टम आउटेज की निगरानी करें और डाउनटाइम या बड़े बदलावों की अलर्ट दें।

ऊपर, हमने अच्छे बॉट्स के बारे में काफी कुछ सीखा है, अब उनके दुर्भावनापूर्ण उपयोग के बारे में बात करते हैं।

बॉट्स के शोषणकारी उपयोग में से एक सामग्री स्क्रैपिंग है अक्सर लेखक की सहमति के बिना मूल्यवान सामग्री की चोरी करें और स्टोर करें विषय वेब पर उनके डेटाबेस में।

इसे के रूप में इस्तेमाल किया जा सकता है स्पैमबॉट्सऔर ईमेल पता प्राप्त करने के लिए वेब पेज और संपर्क फ़ॉर्म की जांच करें जो स्पैम भेजने और समझौता करने में आसान हो सकता है।

अंतिम लेकिन कम से कम, हैकर्स हैकिंग उद्देश्यों के लिए बॉट का उपयोग कर सकते हैं। आम तौर पर, हैकर कमजोरियों के लिए वेबसाइटों को स्कैन करने के लिए टूल का उपयोग करते हैं। हालांकि, सॉफ्टवेयर बॉट इंटरनेट पर वेबसाइट को स्कैन भी कर सकता है।

एक बार जब बॉट सर्वर पर पहुंच जाता है, तो यह उन कमजोरियों का पता लगाता है और रिपोर्ट करता है जो हैकर्स को सर्वर या साइट का लाभ उठाने में मदद करते हैं।

चाहे बॉट अच्छे हों या दुर्भावनापूर्ण रूप से उपयोग किए गए हों, उन्हें प्रबंधित करना या उन्हें अपनी साइट तक पहुंचने से रोकना हमेशा बेहतर होता है।

उदाहरण के लिए, खोज इंजन द्वारा साइट को क्रॉल करना SEO के लिए बेहतर है; लेकिन, यदि वे साइट या वेब पेजों को सेकंड के एक अंश में एक्सेस करने का अनुरोध करते हैं, तो यह सर्वर संसाधनों के उपयोग को बढ़ाकर सर्वर को ओवरलोड कर सकता है।

robot.txt का उपयोग करके बॉट्स को कैसे नियंत्रित या बंद करें?

robot.txt क्या है?

रोबोट.txt फ़ाइल में नियमों का समूह होता है जो उन्हें आपकी साइट तक पहुँचने के लिए प्रबंधित करता है। यह फ़ाइल सर्वर पर रहती है और साइट तक पहुँचने के दौरान किसी भी बॉट के लिए फ्यूल निर्दिष्ट करती है। इसके अलावा, ये नियम परिभाषित करते हैं कि किस पृष्ठ को क्रॉल करना है, किस लिंक का अनुसरण करना है, और अन्य व्यवहार।

उदाहरण के लिए, यदि आप नहीं चाहते कि आपकी साइट के कुछ वेब पेज googles खोज परिणामों में दिखाई दें, तो आप इसके लिए robot.txt फ़ाइल में नियम जोड़ सकते हैं, तो Google इन पृष्ठों को नहीं दिखाएगा।

अच्छे बॉट निश्चित रूप से इन नियमों का पालन करेंगे। लेकिन, उन्हें नियमों का पालन करने के लिए मजबूर नहीं किया जा सकता है; इसके लिए अधिक सक्रिय दृष्टिकोण की आवश्यकता है; क्रॉल दर, अनुमति सूची, ब्लॉकलिस्ट, आदि।

क्रॉल दर:

क्रॉल दर परिभाषित करता है कि साइट क्रॉल करते समय कोई भी बॉट प्रति सेकंड कितने अनुरोध कर सकता है।

यदि बॉट सेकंड के एक अंश में साइट या वेब पेजों तक पहुंचने का अनुरोध करता है, तो यह सर्वर संसाधनों के उपयोग को बढ़ाकर सर्वर को अधिभारित कर सकता है।

नोट: सभी खोज इंजन क्रॉल दर निर्धारित करने का समर्थन नहीं कर सकते हैं।

क्रॉल दर:

अनुमति सूची

उदाहरण के लिए, आपने एक कार्यक्रम आयोजित किया है और कुछ मेहमानों को आमंत्रित किया है। अगर कोई ऐसे कार्यक्रम में प्रवेश करने की कोशिश करता है जो आपकी अतिथि सूची में नहीं है, तो सुरक्षाकर्मी उसे रोक देंगे, लेकिन सूची में कोई भी स्वतंत्र रूप से प्रवेश कर सकता है; यह परिभाषित करता है कि वेब बॉट प्रबंधन कैसे काम करता है .

आपकी अनुमति सूची में कोई भी वेब बॉट आसानी से आपकी वेबसाइट तक पहुंच सकता है; ऐसा करने के लिए, आपको “उपयोगकर्ता एजेंट,” “आईपी पता,” या इन दोनों के संयोजन को robot.txt फ़ाइल में परिभाषित करना होगा।

अनुमति सूची

ब्लॉक सूची

जबकि अनुमति सूची केवल निर्दिष्ट बॉट को साइट तक पहुंचने की अनुमति देती है, ब्लॉकलिस्ट थोड़ा अलग है ब्लॉकलिस्ट केवल निर्दिष्ट बॉट को ब्लॉक करता है जबकि अन्य यूआरएल तक पहुंच सकते हैं।

उदाहरण के लिए: पूरी वेबसाइट को क्रॉल करने की अनुमति न देना।

ब्लॉक सूची

यूआरएल ब्लॉक करें।

किसी URL को क्रॉल होने से रोकने के लिए, आप robot.txt फ़ाइल में सरल नियम परिभाषित कर सकते हैं।

उदाहरण के लिए: उपयोगकर्ता-एजेंट लाइन में, आप उस विशिष्ट यूआरएल के लिए उन सभी को ब्लॉक करने के लिए एक विशिष्ट बॉट या तारांकन चिह्न परिभाषित कर सकते हैं।

यूआरएल ब्लॉक करें।

(यह सभी रोबोटों को index.html तक पहुँचने से रोक देगा। आप index.html के बजाय किसी भी निर्देशिका को परिभाषित कर सकते हैं।)

(116 बार देखे गए, आज 1 बार देखे गए)

Leave a Comment