منتدى استراحات زايد

منتدى استراحات زايد (http://vb.ma7room.com/index.php)
-   منتدى أخبار المواقع والمنتديات العربية والأجنبية (http://vb.ma7room.com/forumdisplay.php?f=183)
-   -   هل لملف robots.txt دور في تقوية الأرشفة مدونتك؟ (http://vb.ma7room.com/showthread.php?t=1394298)

محروم.كوم 02-25-2014 04:50 PM

هل لملف robots.txt دور في تقوية الأرشفة مدونتك؟
 
السلام عليكم و رحمة الله و بركاته،

من الأمور الرائعة أن تزور عناكب البحث صفحات موقعك بشكل مستمر لتقوم بفهرستها، لكن المشكل المطروح يظهر عندما تقوم هذه العناكب بفهرسة ما لا ترغب أنت بفهرسته. فعلى سبيل المثال لو كان لديك نسختين من صفحة معينة على موقعك، إحداهما أصلية للعرض و الأخرى للطباعة، فمن المهم جدا أن تستثني إحدى النسختين من الفهرسة حتى لا تنطبق عليك سياسة المحتوى المكرر.

كما أنه في بعض الحالات قد ترغب في ترك بعض الصفحات مخفية عن عيون عناكب البحث، و غالبا ما تكون صفحات لها علاقة بإدارة موقعك، كلوحة التحكم و غيرها، كل ذلك ممكن عن طريق إخبار محركات البحث بما ليس هناك داعي لفهرسته، لكن كيف يتم ذلك ؟

هناك طريقة وحيدة تستطيع من خلالها التواصل مع محركات البحث و إخبارها بما يجب فهرسته، و ما لا يجب فهرسته، باستخدام ملف robots.txt، فما حقيقة هذا الملف يا ترى ؟

ما هو ملف Robots.txt ؟
ملف robots.txt هو ملف مهم جدا بالنسبة للمواقع، فهو عبارة عن ملف نصي يمكن تحريره بأي محرر للنصوص (Notepad) مثلا، يتمثل دوره الأساسي في حجب موقع معين أو صفحة معينة عن محركات البحث، و بالتالي استبعادها من عملية الفهرسة بحيث تصبح و كأنها غير موجودة (يمكن تشبيهه بدور حارس المتحف، يسمح بالدخول لأروقة معينة و يمنع الدخول لأخرى).

إشارة : قبل دخول عناكب البحث لموقعك، تتحقق أولا من وجود ملف robots.txt الذي يمنعها من الوصول لصفحات معينة.

فوائد ملف Robots.txt :
من المفيد جدا استخدام ملف robots.txt و ذالك راجع للأسباب التالية :

منع محركات البحث من فهرسة المواقع أو الصفحات التي لا تزال تحت الإنشاء؛
حجب الصفحات المتشابهة تفاديا لمشاكل المحتوى المكرر؛
حماية بعض المعلومات الحساسة، من خلال منع فهرستها من قبل عناكب البحث…
أضرار ملف Robots.txt :
لا أحد ينكر الفوائد الجمة التي يوفرها ملف robots.txt للمواقع، لكن مع ذلك هناك بعض السلبيات من رواء استخدام هذا الملف، فلو كانت لديك بعض الملفات الخاصة لا تريد استعراضها أو فهرستها من قبل محركات البحث، فلا تعتمد على الملف المذكور في الأمر، لأنه من السهل جدا معرفة هذه الملفات الخاصة من خلال استعراض ملف، خصوصا و أن عنوانه معروف، واحد لا يتغير، كما سنرى في الفقرة القادمة إن شاء الله.

مكان تواجد ملف Robots.txt :
يتم رفع ملف robots.txt داخل المجلد الرئيسي لموقعك، root أو www أو home أو public_html حسب سيرفر موقعك، بحيث يكون رابط الملف على الشكل التالي :

1
http://www.sitename.com/robots.txt
حيث أن sitename تمثل اسم موقعك.

إشارة : إذا تم وضع ملف robots.txt داخل مجلد فرعي، و ليس بالمجلد الرئيسي كما سبقت الإشارة إلى ذالك، فإن محركات البحث ستفترض أن هذا الملف غير موجود.

إنشاء ملف Robots.txt :
إن إنشاء ملف robots.txt أمر سهل و بسيط للغاية، فيمكنك إنشاء هذا الملف بواسطة أي محرر للنصوص لديك، على أن يكون اسم الملف robots (حروف صغيرة)، و بالامتداد txt. ثم ضع بداخله الأكواد التالية حسب حاجتك :

1
User-agent: *
هذا الكود مفاده توجيه محركات البحث إلى موقعك، يكون دائما في بداية الملف، و قد وضعت النجمة (*) بعده للدلالة على أن كل محركات البحث معنية كمحرك جوجل، بينج، ياهو…، أما إذا أردت تخصيص محرك بحث معين فضع مكان النجمة اسم المحرك، كمثال على ذلك :

1
User-agent: Googlebot
مفاد هذا الكود أن المعلومات الموجودة بملف robots.txt مخصصة لمحرك البحث جوجل فقط.

1
Disallow:
يقوم هذا الكود بمنع محركات البحث من فهرسة بعض أو كل الملفات داخل موقعك، فلو أردت مثلا حجب كل الملفات فالكود سيكون بهذا الشكل :

1
Disallow : /
أما إذا أردت مثلا حجب قسم معين عن محركات البحث، فالأمر سيختلف ليكون الكود بهذا الشكل :

1
Disallow: /admin/
الآن لن يسمح لمحركات البحث بالزحف إلى المجلد admin وهكذا.

يمكنك أيضا منع محركات البحث من الزحف إلى ملف معين داخل قسم محدد، على الشكل التالي :

1
Disallow: /world/login.html
المثال السابق معناه، أنه مسموح لمحركات البحث فهرسة جميع محتويات المجلد world، باستثناء الملف login.html.

تنبيه : يجب الحذر عند كتابة هذه الأسطر فمثلا إذا نسيت كتابة / فسيتحول الأمر الى ترحيب بمحركات البحث ودعوة لزيارة المواقع بدلا من حجبها.

كذلك الأمر بالنسبة للصور، يمكنك منع فهرستها من قبل محركات البحث، على سبيل المثال لو أردنا منع فهرسة الصور ذات الامتداد png. فالأمر سيكون بهذا الشكل :

1
Disallow: /*.png$
لاحظ وجود النقطة قبل الامتداد و علامة الدولار بعده، أما النجمة فتعني أي شيء.

1
Allow:
هذا الكود يسمح لنا بتحديد المجلدات أو الملفات المسموح بزيارتها من قبل المحركات، فمثلا لو أردنا حجب جميع محتويات الموقع عن جميع محركات البحث، فلا شك أن الكود سيكون هكذا :

1
use-agent : *
2
Disallow : /
لكن لو أردنا استثناء بعض الملفات أو المجلدات من المنع، و السماح لمحركات البحث بأرشفتها نضع الأمر التالي أسفل السطرين السابقين :

1
Allow: /vb
2
Allow: /wp
و بالتالي فإن المجلدين vb و wp ستتم فهرستهما من قبل محركات البحث.

1
Sitemap:
ملحق :
أشهر العناكب والروبوتات :
googlebot لجوجل؛
msnbot لمحرك ام اس ان؛
yahoo-slurp لمحرك ياهو؛
teoma لمحرك بحث أسك/تيوما؛
gigabot لجيجا بلاست؛
scruby لسكرب ذا ويب؛
robozilla لدليل دموز؛
nutch لـ ناتش؛
ia_archiver لأليكسا؛
baiduspider لـ بايدو؛
googlebot-image لجوجل صور؛
googlebot-mobile لجوجل موبايل؛
psbot لمحرك بحث ام اس ان / بينج للصور؛
asterias لمحرك بحث سينغ انغ فيش؛
yahoo-blogs لمحرك بحث ياهو للمدونات…

ملفات robots.txt لأشهر المواقع العالمية :
https://www.facebook.com/robots.txt
http://www.vbulletin.org/robots.txt
http://www.google.com/robots.txt
http://www.yahoo.com/robots.txt
http://www.msn.com/robots.txt
http://www.alexa.com/robots.txt
http://www.adobe.com/robots.txt



http://www.cpanel.com/robots.txt
http://www.alarabiya.net/robots.txt
http://www.aljazeera.net/robots.txt
http://www.cnn.com/robots.txt


المصدر


الساعة الآن 02:18 AM

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Content Relevant URLs by vBSEO 3.5.2 TranZ By Almuhajir


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227