Semalt कसरी बट्स, स्पाइडर र क्रॉलरहरूसँग डील गर्ने बारे सुझावहरू प्रदान गर्दछ

खोज इञ्जिन मैत्री युआरएलहरू सिर्जना गर्नु बाहेक, .htaccess फाईलले वेबमास्टर्सलाई विशिष्ट बट्सलाई उनीहरूको वेबसाइटमा पहुँच गर्नबाट रोक्न दिन्छ। यी रोबोटहरू रोक्नको लागि एक तरीका भनेको रोबोट.टीएसटी फाइल मार्फत हो। यद्यपि, Semalt ग्राहक सफलता प्रबन्धक रस बार्बर भन्छन कि उनले केहि क्रॉलरहरूले यस अनुरोधलाई वेवास्ता गर्दै आएका छन्। एउटा उत्तम तरिका भनेको .htaccess फाइल प्रयोग गरेर तपाईंको सामग्रीलाई अनुक्रमित गर्नबाट रोक्नु हो।

यी बट्स के हुन्?

तिनीहरू एक प्रकारका सफ्टवेयर हुन् जसलाई खोजी ईन्जिनले इन्डेक्सिंग उद्देश्यका लागि इन्टरनेटबाट नयाँ सामग्री मेटाउन प्रयोग गर्दछ।

तिनीहरूले निम्न कार्यहरू गर्छन्:

  • तपाईंले लिंक गर्नुभएको वेब पृष्ठहरू भ्रमण गर्नुहोस्
  • त्रुटिहरूको लागि तपाईंको HTML कोड जाँच गर्नुहोस्
  • तपाइँले कुन वेब पृष्ठहरू लि l्क गरिरहनुभएको छ र तपाइँको सामग्रीसँग कुन वेब पृष्ठले लि link्क गर्दछ भनेर हेर्नुहोस्
  • तिनीहरूले तपाईंको सामग्री अनुक्रमणिका गर्छन्

यद्यपि, केहि बोटहरू दुर्भावपुर्ण छन् र तपाईको साइटलाई ईमेल ठेगानाहरू र फारमहरूको लागि खोजी गर्दछ जुन तपाईंलाई अनावश्यक सन्देश वा स्पाम पठाउन प्रयोग गरिन्छ। अरूले तपाईको कोडमा सुरक्षा त्रुटीहरू पनि हेर्छन्।

वेब क्रोलरहरू रोक्न के आवश्यक छ?

.Htaccess फाइल प्रयोग गर्नु अघि, तपाईंले निम्न चीजहरू जाँच गर्नु पर्छ:

१. तपाईको साइट एक अपाचे सर्वरमा चलिरहेको हुनुपर्दछ। आजकल, ती वेब होस्टिंग कम्पनीहरूले तिनीहरूको काममा आधा सभ्य छन्, तपाईंलाई आवश्यक फाइलमा पहुँच दिनुहोस्।

२. तपाइँसँग तपाइँको वेबसाइटको कच्चा सर्भर लगहरूमा पहुँच हुनुपर्दछ जसले गर्दा तपाईले पत्ता लगाउन सक्नुहुनेछ कि कुन वेब साइटमा तपाइँको वेब पृष्ठहरूको भ्रमण भइरहेको छ।

नोट गर्नुहोस् कुनै तरिका छैन तपाई सबै हानिकारक बट्सलाई ब्लक गर्न सक्षम हुनुहुनेछ जबसम्म तपाईं ती सबैलाई रोक्नुहुन्छ, यहाँ सम्म कि तपाईंले तिनीहरूलाई सहयोगी ठान्नुहुन्छ। नयाँ बोटहरू हरेक दिन आउँदछन्, र वृद्धहरू परिमार्जन हुन्छन्। सब भन्दा कुशल तरीका भनेको तपाईको कोड सुरक्षित गर्नु हो र तपाईलाई कडा बनाउनका लागि बट्सलाई स्प्याम गर्नका लागि।

बट्स चिन्न

बुट्स या त आईपी ठेगाना वा उनीहरूको "प्रयोगकर्ता एजेन्ट स्ट्रिंग," बाट पहिचान गर्न सकिन्छ जुन उनीहरूले HTTP हेडरहरूमा पठाए। उदाहरण को लागी, Google "Googlebot" प्रयोग गर्दछ।

तपाईलाई यो सूची 30०२ बट्सको साथ चाहिन सक्छ यदि तपाईंसँग पहिले नै बाटको नाम छ जुन तपाईं .htaccess प्रयोग गरेर टाढा राख्न चाहानुहुन्छ।

अर्को तरीका सर्भरबाट सबै लग फाइलहरू डाउनलोड गर्नु र पाठ सम्पादक प्रयोग गरेर खोल्नु हो। तपाइँको सर्भरको कन्फिगरेसनको आधारमा सर्वरमा तिनीहरूको स्थान परिवर्तन हुन सक्दछ। यदि तपाईं तिनीहरूलाई फेला पार्न सक्नुहुन्न भने, तपाईंको वेब होस्टबाट सहायता लिनुहोस्।

यदि तपाईंलाई थाहा छ कि कुन पृष्ठ भ्रमण गरिएको थियो वा भ्रमणको समय हो, अनावश्यक बोटको साथ आउन सजिलो हुन्छ। तपाईं यी प्यारामिटरहरूको साथ लग फाइल खोजी गर्न सक्नुहुनेछ।

एकचोटि, तपाईंले नोट गर्नुभयो कि कुन बोटहरू तपाईंले अवरूद्ध गर्नु पर्छ; त्यसोभए तपाईं तिनीहरूलाई .htaccess फाइलमा समावेश गर्न सक्नुहुनेछ। कृपया नोट गर्नुहोस् कि बोट रोक्न यो रोक्नको लागि पर्याप्त छैन। यो नयाँ आईपी वा नामको साथ फिर्ता आउन सक्छ।

कसरी ब्लक गर्ने

.Htaccess फाइलको प्रतिलिपि डाउनलोड गर्नुहोस्। आवश्यक भएमा ब्याकअपहरू बनाउनुहोस्।

विधि १: आईपी द्वारा ब्लक गर्दै

यो कोड स्निप्पेटले आईपी ठेगाना १ 197: ०.०.१ को प्रयोग गरेर बोटलाई रोक्दछ

अर्डर अस्वीकृत, अनुमति दिनुहोस्

197.0.0.1 बाट अस्वीकार गर्नुहोस्

पहिलो लाइनको मतलब सर्भरले तपाईंले निर्दिष्ट गर्नुभएको बान्कीसँग मेल खाने सबै अनुरोधहरू रोक्दछ र सबै अरूलाई अनुमति दिन्छ।

दोस्रो लाइन सर्भरलाई the० a: निषेधित पृष्ठ जारी गर्न भन्छ

विधि २: प्रयोगकर्ता एजेन्टहरू द्वारा अवरुद्ध

सब भन्दा सजिलो तरीका अपाचेको पुन: लेखन ईन्जिन प्रयोग गर्नु हो

RewriteEngine अन

RewritCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule। - [एफ, एल]

पहिलो लाइनले पुन: लेखन मोड्युल सक्षम छ भनेर सुनिश्चित गर्दछ। रेखा दुई शर्त जुन नियम लागू हुन्छ। लाइन 4 मा "F" ले सर्भरलाई 3०3 फिर्ड गर्न बताउँछ: निषेध गरिएको छ जबकि "L" को अर्थ यो अन्तिम नियम हो।

तपाइँले तपाइँको सर्भरमा .htaccess फाइल अपलोड र अवस्थित एकमा अधिलेखन गर्नुहुनेछ। समयको साथ, तपाईंले बोटको आईपी अपडेट गर्न आवश्यक पर्दछ। यदि तपाईले त्रुटि गर्नुभयो भने, तपाईले बनाउनु भएको जगेडा अपलोड गर्नुहोस्।

mass gmail