منتدى استراحات زايد

منتدى استراحات زايد (http://vb.ma7room.com/index.php)
-   منتدى أخبار المواقع والمنتديات العربية والأجنبية (http://vb.ma7room.com/forumdisplay.php?f=183)
-   -   [شرح] كل ما يتعلق بملف ال robots.txt وتوجيه عناكب محركات البحث (http://vb.ma7room.com/showthread.php?t=250057)

محروم.كوم 10-14-2009 12:00 PM

[شرح] كل ما يتعلق بملف ال robots.txt وتوجيه عناكب محركات البحث
 

بسم الله الرحمن الرحيم
:icon30:

قبل أي شيء قد يكون الموضوع مكرر و أنما التكرار للآفاده فقط و أخطاء ملف الروبرتس المنتشره الآن :nosweat:
مقدمة:
سنشرح فى هذا الدرس كل ما يتعلق بملف robots.txt هذا الملف الشهير الذى يتحدث الكثير عنه ونقوم بوضعه فى مواقعنا دون ان نفهم محتواه او الفائده منه * بعد هذا الدرس ستفهم كل شىء عنه وستكتب محتوياته بيدك دون الرجوع لأحد * فقط تابع الدرس بتركيز .

معنى كلمة robots :
المعنى الحرفى لكلمة robots هى " الرجل الالى" وهذا ادق معنى للrobots الخاصه بمحركات البحث ولكنها ايضا يطلق عليها فى بعض الاحيان Wanderers بمعنى "المتجولون" او spiders " بمعنى عناكب ....الان بدأنا نعرف عن ماذا اتحدث عندما ذكرت كلمة عناكب اليس كذلك؟
حسنا نستخلص من هذا ان ال robots هى عناكب محركات البحث وبالتالى سيكون ملف robots.txt هو المسؤول عن توجيه هذه العناكب

ما هى العناكب وما هى وظيفتها:
عناكب محركات البحث عباره عن برامج تتصفح المواقع تلقائيا . محركات البحث مثل Google تستخدم العناكب فى أرشفة محتويات المواقع لكى تبنى بها محرك بحث Google الشهير .كما ان بعض ال spammers -وهم الذين يهتمون بجمع الايميلات ومراسلتها بغرض الدعايا- يقومون بعمل عناكب بهدف جمع الايميلات من المواقع

حتى الان عرفنا ماهى العناكب ووظيفتها وما هو ملف الـ robots.txt ووظيفته ولكن سنتعلم فى النقاط التاليه المزيد من وظائف ملف الـ robots.txt وكيفية كتابتة واعداده

بأختصار:
اى صاحب موقع يجب عليه ان يقوم بعمل ملف robots.txt لكى يقوم بتوجيه عناكب محركات البحث القادمة الى موقعة وهذا يسمى ببروتوكول استثناء العناكب The Robots Exclusion Protocol * وهذا مثال لكيفية عمل ملف robots.txt:

سنفترض ان احد عناكب محركات البحث جاء الى الصفحة التالية http://www.example.com/welcome.html قبل ان يقوم بالتعامل مع الصفحة يتحقق اولا من وجود هذا الملف http://www.example.com/robots.txt* وسنفترض مثلا انه وجد به الكود التالى
كود:
رمز PHP:
User-agent: *
Disallow: /


هذا الكود يعنى ان الموقع يوافق على دخول جميع عناكب محركات البحث
كود:
رمز PHP:
User-agent: *


وهذا الكود يعنى انه غير مسموح لعناكب محركات البحث بزيارة اى صفحه بداخل هذا المجلد

لاحظ النقاط التالية:
  1. بعض العناكب تتجاهل ملف الـ robots.txt مثل العناكب التى تدخل الموقع لتبحث عن الثغرات الامنية والايميلات
  2. ملف الـ robots.txt متاح لأى زائر ويستطيع الكل قراءته لذلك لا تستخدمه لأخفاء معلومات لأنك فى هذه الحاله تفضح المعلومات ولا تخفيها
سننتقل الان الى الجزء الاهم فى هذا الشرح فرجاء التركيز
كيف يمكنك عمل ملف الـ robots.txt ؟
وهذا السؤال ينقسم الى عدة نقاط
اولا : اين يوضع ملف الـ robots.txt ؟
الاجابة المختصره على هذا السؤال:
يوضع فى مجلد الموقع الرئيسى * بمعنى ان رابط الملف بعد تركيبه سيكون بهذا الشكل http://www.example.com/robots.txt
الاجابة المفصله لهذا السؤال :
ان عناكب محركات البحث عندما تقوم بالتحقق من وجود ملف الـrobots.txt فهى تقوم بحذف جزء من الرابط هذا الجزء هو من اول slash "/"حتى نهاية الرابط وتضع مكان هذا الجزء "/robots.txt"

[RIGHT]مثال على ذلك بالنسبة لهذا الرابط http://www.example.com/shop/index.html ستقوم العناكب بحذف /shop/index.html وستضع مكانه "/robots.txt" اى انها ستبحث عن ملف ال robots.txt على هذا الرابط http://www.example.com/robots.txt
وتذكر دائما ان تكتب اسم الملف بالحروف الصغيره اى ان اسمه robots.txt ووليس Robots.TXT

ماذا سأضع بداخل ملف الـ robots.txt ؟
ملف الـ robots ملف نصى "text" وظيفته الاساسية هى الاستثناء كما سنرى
الامر ابسط مما تتخيلون
سنشرح عن طريق امثله لمحتويات ملف الـrobots.txt وتفسيرها
كود:
رمز PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/


بواسطتة هذا الكود قمنا بالسماح لجميع محركات البحث بزيارة الموقع عن طريق السطر الاول وقمنا بأستثناء هذه المجدلدت cgi-bin *tmp من الارشفه اى منعنا عناكب محركات البحث من زيارت هذه المجلدات وكامل محتوياتها

لاحظ انك يجب ان تضع امر "Disallow" فى سطر منفصل كل مره تحجب فيها مجلد او رابط معين ولا يمكنك حجب مجلدين فى نفس الوقت عن طريق امر واحد بل ضع لكل مجلد امر "Disallow" بمفرده

كود:
رمز PHP:
User-agent: *
Disallow: /


بواسطة هذا الكود نمنع كل عناكب محركات البحث من ارشفة كل محتويات الموقع




كود:
رمز PHP:
User-agent: *
Disallow:


هذا الكود يسمح لجميع العناكب بالدخول وارشفة جميع محتويات الموقع ويمكنك الاستغناء عن هذا الكود برفع ملف robots.txt فارغ او عدم عمل الملف نهائيا

كود:
رمز PHP:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/


بواسطة هذا الكود منعنا جميع العناكب من زيارة اقسام معينه من الموقع


كود:
رمز PHP:
User-agent: BadBot
Disallow
: /


يستخدم هذا الكود لمنع عناكب احد محركات البحث



كود:
رمز PHP:
User-agent: Google
Disallow
:

User-agent: *
Disallow: /


هذا الكود يستخدم للسماح لعناكب احد محركات البحث بالزيارة واستثناء الاخرون



كود:
رمز PHP:
User-agent: *
Disallow: /~joe/junk.html
Disallow
: /~joe/foo.html
Disallow
: /~joe/bar.html


وبالطبع هذا الكود لأستثناء الملفات كما هو ظاهر

اضيف بعض الخواص وخصوصا Allow


وهي :

كيف اجعل العناكب لا تقرأ ملفات معينه مثل ملفات الفلاش ؟

باستخدام هذا الكود

كود:
رمز PHP:
User-agent: *
Disallow: /*.swf$


وطبعا يمكن اضافة اي لاحقه مثل ال php و html و js كما يرد صاحب الموقع



ايضا

ماذا ان كنت اريد منع مسار معين وفي نفس الوقت اريد ارشفة ملف هذا المسار؟

مثال :

كود:
رمز PHP:
User-agent: *
Disallow: /dir/
Allow: /dir/file.html


في هذه الحاله سوف تمنع العناكب من ارشفة اي شي بـ dir

لكن ملف file.html يسمح بارشفته



وايضا ان استخدمنا الامر هكذا

كود:
رمز PHP:
User-agent: *
Disallow: /dir/
Allow: /dir/*.html$


اي امنع العناكب من ارشفة اي شي داخل مجلد dir ولكن اجعلها تأرشف اي ملفات html داخل هذا المجلد

وهنا يأتي دور ان هذا المجلد يحتوي على ملفات php و html او حتى swf

فيتم منع اي لاحقه ماعادا html




ماذا ان كنت اريد منع ملفات معينه ولكن اسمائها مختلفه لكنها مرتبه

نستخدم في هذه الحاله العلامه *

مثلا لديك ملفات بهذه الاسماء

file_1.html حتى file_500.html

هل من المعقول ان تضع الاسماء من 1 الى 500 !!

لا طبعا تستخدم هذا الامر فقط

كود:
رمز PHP:
User-agent: *
Disallow: /file_*


او

كود:
رمز PHP:
User-agent: *
Disallow: /file_*.html


ايضا يمكن اضافة اخر الملف مسار خريطة الموقع مثل :

كود:
رمز PHP:
Sitemap: http://www.site.com/anyname.xml


كل ما يتعلق بملف ال robots.txt وتوجيه عناكب محركات البحث
تحياتي للجميع أرحب باضافه تعليقات للتحسينات :blushing:
بومازن جرافيكس ؛؛


الساعة الآن 03:13 AM

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Content Relevant URLs by vBSEO 3.5.2 TranZ By Almuhajir


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227