ساخت فایل Robots.txt ساده است و یکسری دستورات خاص دارد که باید طبق آن اصول فایل Robots.txt را ایجاد کنیم، همانطور که در مقالات پیشین درباره این فایل توضیح دادیم، میدانیم که این فایل اهمیت بالایی در سئو سایت دارد، پس با این آموزش همراه داتیس نتورک باشید.
فایل robots.txt سایت شما از دو فرمان کلی پیروی میکند که برای ربات گوگل GoogleBot یک دستور دیگر نیز اضافه میشود.
با بهکارگیری این دو دستور، شما قادر خواهید بود قوانین مختلفی را راستای دسترسی رباتهای خزندهٔ موتورهای جستجوگر برای ورود به سایتتان وضع کنید. این قوانین عبارتاند از:
User-agent
این دستور برای هدفگیری یک ربات خاص بهکاربرده میشود.
این دستور را میتوان به دو شکل در فایل robots.txt به کار برد. اگر میخواهید به تمام رباتهای خزنده یک دستور را بدهید، فقط کافی است بعد از عبارت User-agent از علامت “*” استفاده کنید. مانند زیر:
* : User-agent
دستور بالا به این معنا است که “دستورات فایل، برای همه رباتهای جستجوگر یکسان عمل میکند”.
اما اگر میخواهید تنها به یک ربات خاص مانند ربات گوگل GoogleBot دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:
User-agent: Googlebot
کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است”.
Disallow
دستور Disallow به رباتها میگوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند.
در حقیقت این دستور، بیانگر آدرس صفحهای است که میخواهید از دید روباتها پنهان بماند.
برای مثال اگر مایل نیستید موتورهای جستجو، تصاویر سایت شمارا ایندکس کنند، میتوانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.
فرض کنیم که تمام این تصاویر را به درون فولدر “Photos” منتقل کردهاید.
برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:
* :User-agent Disallow: /photos
با واردکردن دو خط کد بالا در فایل robots.txt، به هیچیک از رباتهای جستجوگر اجازه ورود به فولدر تصاویر سایت را نمیدهد.
در کد دستوری بالا، قسمت “User-agent: *” بیانگر این است که اجرای این دستور برای تمامی رباتهای جستجو ضروری است.
قسمت “Disallow: /photos” میگوید که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.
Allow
موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد.
این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود.
علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند.
دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد.
برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم، بهتر نیست؟
در مثال قبل رشته کدی را قراردادیم که به رباتهای جستجو، اجازه دسترسی به تصاویر سایت را نمیداد.
تمام تصاویر سایت را درون یک پوشه به نام Photos قراردادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:
* :User-agent Disallow: /photos
حال تصور کنید درون این پوشهٔ ما که در هاستینگ سایت قرار دارد، تصویری به نام datisnetwork.png وجود دارد که میخواهیم Googlebot آن را ایندکس کند.
با استفاده از دستور Allow میتوانیم به ربات گوگل بگوییم که این کار را انجام دهد:
* :User-agent Disallow: /photos Allow: /photos/datisnetwork.png
این دستور به ربات گوگل میگوید که اجازه مشاهده و ایندکسِ فایل seo.png را دارد، علیرغم اینکه فولدر Photos از دسترس رباتها خارجشده است.
آموزش نوشتن و ساخت فایل Robots.txt
همانطور که در بهطور کامل توضیح دادیم برای مدیریت رباتهای موتورهای جستجو از دو دستور اصلی که شامل User-agent و Disallow است استفاده میشود.
با ترکیب این دو دستور شما قادر خواهید بود قوانین مختلفی برای دسترسی به صفحات داخلی سایت خود وضع کنید.
برای مثال با یک User-agent میتوان مشخص کرد چندین آدرس را معرفی نمود و یا برعکس این کار. شما میتوانید با قرار دادن نام هر یک از رباتها بهعنوان User-agent قوانین معینی برای آنها تعریف کنید و با استفاده از کاراکتر بهجای نام در فایل robots.txt یک قانون را برای همه روباتها اعمال کنید. مانند:
* :User-agent /Disallow: /folder1
موتور جستجوی گوگل چندین نوع روبات مختص به خود را دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را عهدهدار است.
روبات Gogglebot-image نیز موظف به بررسی تصاویر سایتها و ایندکس کردن آنها است.
User-Agent: Googlebot /Disallow: /folder2
همچنین شما قادر هستید بهروشهای مختلفی قوانین خود را اعمال کنید، میتوان یک صفحه مشخص و یا یک دسته از صفحات را برای یک دستور تعریف کنید.
مثالهای زیر روشهای مختلف استفاده از این دستورات است:
برای جلوگیری از دسترسی روباتها به تمام محتویات سایت از کاراکتر / استفاده میکنیم
/:Disallow
برای جلوگیری از دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید
/Disallow: /blog
برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید
/Disallow: /blog/keyword-planner
برای محدود کردن یک تصویر بر روی سایت آدرس آن را به همراه User-agent مربوط به آن وارد کنید
User-agent: Googlebot-Image Disallow: /images/seo.jpg
و برای پنهان کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید
User-agent: Googlebot-Image /:Disallow
همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگهدارید، بهعنوانمثال برای تصاویری با فرمت gif
User-agent: Googlebot $Disallow: /*.gif
همچنین، شما میتوانید فایل robots.txt خود را به سایت مپ xml لینک کنید.
نکته : فایل robots.txt نسبت به بزرگ و کوچک بودن حروف حساس است و آدرس صفحات باید به دقت وارد شوند. پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در Root سایت کپی کنید.
اضافه کردن نقشه سایت به فایل robots.txt
برای اضافه کردن نقشه سایت به این فایل کافی است آدرس نقشه را در مقابل واژه Sitemap بنویسید به شکل زیر و به فایل اضافه کنید.
Sitemap: https://www.datisnetwork.com/sitemap.xml
امیدواریم توانسته باشیم در این مقاله ساخت فایل Robots.txt را به شما عزیزان آموزش دهیم.