حتما بارها شنیده اید که فایل robots.txt اهمیت بالایی دارد و باید برای سایت خودتان حتما این فایل را بسازید و تنظیمات درستی را در آن اعمال کنید. در این مقاله داتیس نتورک با فایل روبوت تکتس آشنا می شوید، همراه ما باشید.
فایل robot.txt یک فایل مهم در سئو وب سایت است که وظیفه آن گزارش ساختار وب سایت برای نمایش در موتور های جستجو است.
فایل robots.txt به موتور جستجو توضیح می دهد که چه صفحاتی مثلا در جستجوی گوگل نمایش داده شوند و چه صفحاتی نباید ایندکس شوند که این مسئله علاوه بر کاربرد برای افزایش سطح سئو سایت در افزایش سطح امنیت وب سایت نیز موثر است.
فایل robot.txt چیست؟
فایل Robots.txt فایلی برای گزارش ساختار صفحات وب سایت به رباتهای کراولر (crawler) موتورهای جستجو است تا بتوانند متوجه شوند که کدام صفحات باید در موتورهای جستجو نمایش داده شوند و کدام صفحات نمایش داده نشوند.
این فایل کاملا فایل دسترسی است و میتوانید اطلاعات داخل آن را بخوانید و یا ویرایش کنید و افراد مختلف نیز صرفا با اضافه کردن این پسوند به لینک وبسایت شما میتوانند آن را به سادگی ببینند.
فایل Robots.txt در واقع به رباتها اطلاع میدهد که کجا میتوانند فایلهای نقشه XML سایت را پیدا کنند و در این میان کدام صفحات نباید کراول شوند.
قبل از اینکه رباتهای موتورهای جستجو نظیر بینگ و یا گوگل صفحات وب را کراول کنند ابتدا فایل Robots.txt را بررسی کرده و اگر این فایل وجود داشته باشد مطابق با اطلاعات نوشته شده در آن اقدام به ایندکس کردن صفحات میکنند.
نقش اصلی فایل Robots.txt در محدود کردن دسترسی رباتهای موتور جستجوی گوگل به محتوای سایت شما است.
تمامی این رباتها بهصورت خودکار عمل میکنند بهطوریکه قبل از ورود به هر سایت یا صفحهای از وجود فایل Robots.txt بر روی آن و محدود نبودن دسترسی محتویات اطمینان حاصل میکنند.
تمام رباتهای استاندارد در وب به قوانین و محدودیتها پایبند بوده و صفحات شمارا بازدید و ایندکس نخواهند کرد ولی ناگفته نماند که بعضی از رباتها توجهی به این فایل ندارند.
برای مثال رباتهای Email Harvesters و Spambots Malware یا باتهایی که امنیت سایت شمارا ارزیابی میکنند، امکان دارد هرگز این دستورات را دنبال نکنند و حتی کار خود را از بخشهایی از سایت آغاز کنند که اجازهٔ دسترسی به آن صفحات را ندارند.
در حقیقت با به کار بردن فایل Robots.txt این امکان برای شما به وجود میآید که صفحات سایت را تنها مختص کاربران خود طراحی کنید و ترسی از محتوای تکراری، وجود لینکهای بسیار آن در صفحه و تأثیر منفی آن بر سئو سایت نداشته باشید.
هنگامیکه شما قصد دارید رباتهای گوگل را محدود کنید از فایل Robots.txt استفاده میکنید ولی اگر تمام صفحات سایت قابلیت ایندکس توسط گوگل را داشته باشند نیازی به این فایل نخواهید داشت.
فایل Robots.txt یک ضرورت نیست ولی یک ابزار جالب توجه است و رباتهای موتورهای جستجو خیلی وابسته به آن هستند. اما گاهی میتواند به ضرر سایتها تمام شود.
به طور مثال ؛ اگر یک نفر در نظر داشته باشد به صفحاتی از وبسایت شما دسترسی پیدا کند که شما این صفحات را در فایل ربات بلاک کردهاید یقیناً برای شناسایی این صفحات میتواند به راحتی از این فایل استفاده کند.
خیلیها فکر میکنند که از طریق فایلهای ربات ، می توانند از اطلاعات محرمانه خود مراقبت میکنند در حالی که کاملا برعکس است و برخی رباتها میتوانند از این اطلاعات شما سوءاستفاده کنند.
کیسهای مختلف دیگری هم وجود دارند که در آنها به دلیل عدم امنیت فایلهای Robot.txt اگر به دست رقبای شما بیفتد میتواند به ضرر شما تمام شود. برای کاهش این خطرات چه باید کرد؟
فایل Robots.txt به شما کمک نمیکند تا یک URL را از ایندکس موتورهای جستجو حذف کنید و همچنین از موتورهای جستجو در برابر اضافه کردن یک URL جلوگیری نمیکند.
پس فایل ربات صرفاً برای جلوگیری از کراول نیست و موتورهای جستجو در هر صورت صفحات شما را ایندکس و کراول میکنند اما با فایل ربات به آنها اطلاع میدهید که این صفحات را در نتایج جستجو نمایش ندهد.
برای صفحات محرمانه اما قابل دسترسی از Noindex استفاده کنید.
اگر از تگ Noindex استفاده کنید مستقیما به رباتهای کراولر اعلام میکنید که این صفحه نباید در نتایج جستجو نمایش داده شود. یعنی کراولر صفحه شما را کراول و شناسایی میکند اما حق ندارد محتوای شما را در نتایج نشان دهد.
این مورد برای صفحات محرمانه با دسترسی عمومی بسیار مناسب است.
برای صفحاتی محرمانهای که نباید به صورت عمومی نمایش داده شوند ایجاد پسورد و یا شناسایی IP پیشنهاد میشود. از Disallow برای مسیرها استفاده کنید نه صفحات خاص
با لیست کردن برخی صفحات خاص و استفاده از Disallow در حقیقت شما به رباتهای مخرب و هکرها میگویید که این صفحات سایت مهم هستند و نباید به آنها دسترسی پیدا کنید و آنها به راحتی این صفحات را پیدا میکنند.
اما اگر مسیرها و دایرکتوریها را Disallow کنید این رباتها صرفاً میتوانند صفحه دایرکتوری را ببینند و امکان دیدن سایر صفحات وجود ندارد.
توجه داشته باشید که حتما از یک صفحه 404 یا صفحات مشابه برای دایرکتوریهایی که قرار نیست ایندکس شوند اما وجود دارند ، استفاده نمایید.
در استفاده از Nofollow و Disallow به طور همزمان خیلی مراقب باشید.
در چند مورد نادر که در یک صفحه همزمان از تگهای نوفالو و ربات دیسآلو استفاده میشود ممکن است مشکلاتی به وجود بیاید. به طوری که اگر به طور همزمان استفاده شود گوگل در نتایج جستجو چنین پیغامی را نمایش میدهد که «توضیحی برای این صفحه در دسترس نیست» و در کارکرد کلی سایت شما تاثیر میگذارد.
باید دقت داشته باشید که صفحات شما همزمان از این دو تگ و ربات استفاده نکنند تا صفحات به درستی به موتورهای جستجو معرفی شوند.
نکته مهم : ساخت و تعریف فایل Robots.txt اهمیت بالایی دارد و نیاز به تخصص و اطلاعات بالا در زمینه سئو دارد و در صورتی که به شکل صحیح و اصولی انجام نشود ممکن است ضربه جبران ناپذیری به سئووب سایت شما در موتور های جستجو وارد کند، بنابراین بهتر است با کارشناسان این زمینه مشورت کنید و یا اطلاعات خود را ارتقا دهید.
منبع: