فایل robots.txt چیست؟چرا باید از فایل robots.txt استفاده کنیم؟

فایل robots.txt
فایل robots.txt

فایل robots.txt یکی از اولین مواردی که باید هنگام کار بر روی سئو فنی سایت خود ، آن را بررسی و بهینه سازی کنید.

مشکل یا پیکربندی نادرست در فایل robots.txt می تواند مشکلات مهمی برای سایت شما ایجاد کند که می تواند بر رتبه و ترافیک سایت شما تأثیر منفی بگذارد.

در این پست شما خواهید آموخت که فایل robots.txt چیست ، چرا به آن احتیاج دارید ، چگونه آن را بهینه کنید و موارد دیگری که در ارتباط با این فایل باید از آن ها مطلع باشید.

فایل robots.txt چیست؟

Robots.txt یک سری دستورات است که به ربات های وب ، معمولاً ربات موتورهای جستجو ، می گوید که کدام صفحات را باید بررسی و کدام صفحات را نباید بررسی کنند.

بنابراین ، فایل Robots.txt ، یک فایل متنی است که در فهرست اصلی وب سایت شما قرار دارد و به موتورهای جستجو دستورالعمل هایی می دهد که در هنگام خزیدن و نمایه سازی ، کدام صفحات را می توانند بررسی و برای نشان دادن آن ها در نتایج جست و جو فهرست بندی کنند.

ربات های موتور جست و جو و برای مثال گوگل ، هنگام بازدید از یک وب سایت ، اولین کاری که انجام می دهند این است که محتویات فایل robots.txt را مورد بررسی قرار می دهند.

بسته به قوانین مشخص شده در فایل ، آنها لیستی از آدرس های اینترنتی ایجاد می کنند که می توانند آن ها را در نتایج جست و جو نشان دهند.

چرا باید از robots.txt استفاده کرد؟

چرا باید از robots.txt استفاده کرد؟
چرا باید از robots.txt استفاده کرد؟

درک نحوه خزیدن گوگل در وب سایت ها به شما کمک می کند تا ارزش استفاده از robots.txt را متوجه شوید.

گوگل به هر سایت ، بودجه خزش معینی را اختصاص می دهد. بودجه خزش مدت زمانی را که Google برای بررسی یک سایت اختصاص می دهد ، توصیف می کند.

این بودجه بر اساس محدودیت نرخ خزش و تقاضای خزیدن محاسبه می شود.

اگر گوگل مشاهده کند که یک سایت ، در بازه های زمانی طولانی بروز می شود و یا از مشکلات فنی متعددی برخوردار است ، بودجه  خزش سایت را کاهش می دهد.

این به این معنی است که اگر محتوای جدیدی را به سایت خود اضافه کنید ، گوگل به سرعت متوجه وجود آن در سایت شما نمی شود و این اتفاق ، در فرایند سئو سایت شما ، اختلال ایجاد می کند و آن را به تعویق می اندازد.

بخش دوم محاسبه بودجه خزش است.تقاضا ، حکم می کند که آدرس های اینترنتی با محبوبیت بیشتر،دارای بودجه ی خزش بیشتری باشند.

به طور کلی سایت هایی که محتوای بیشتری تولید میکنند و همچنین دارای صفحات زیادی هستند،بودجه خزش بیشتری دارند.

تا جای امکان باید بودجه خزش سایت خود را بهینه کنید و از هدر رفتن آن جلوگیری کنید.یکی از راهکارهایی که می توانید به وسیله ی آن ، بودجه خزش سایت خود را مدیریت و کنترل کنید، فایل robots.txt است.

robots.txt علاوه بر اینکه به شما کمک می کند خزنده های موتورهای جستجو را از صفحات کم اهمیت یا تکراری سایت خود دور کنید ، اهداف مهم دیگری را نیز دنبال می کند:

مزایای استفاده از فایل robots.txt

جلوگیری از مجازات محتوای تکراری

از وجود محتوای تکراری جلوگیری می کند. گاهی ممکن است وب سایت شما به طور هدفمند به بیش از یک نسخه از یک محتوا نیاز داشته باشد.برای مثال معرفی دو نوع محصول که شباهت بسیار زیادی با هم دارند.

این ممکن است توسط گوگل به عنوان محتوای تکراری شناخته شود و می تواند باعث بروز مشکل شود.

در این مواقع گوگل نمی داند کدام محتوا را باید در نتایج جست و جو قرار دهد و بدین ترتیب سئو سایت شما با مشکل مواجه می شود.

با استفاده از فایل robots.txt می توانید از بروز چنین مشکلی جلوگیری کنید.

بازسازی صفحات سایت

اگر در حال بازسازی قسمت هایی از وب سایت خود هستید ، می توانید از robots.txt برای پنهان کردن فهرست بندی صفحات ناتمام قبل از آماده شدن آنها استفاده کنید.

عدم نمایش صفحات خصوصی سایت

احتمالاً صفحاتی در وب سایت خود دارید که نمی خواهید برای عموم نمایش داده شود. به عنوان مثال ، این صفحات ممکن است شامل صفحه تماس و یا نظرات باشد.

این صفحات نباید در موتور جستجو ظاهر شوند ، بنابراین فهرست بندی آنها برای گوگل یا سایر موتورهای جستجو بی ارزش است.
 با استفاده از فایل robots.txt ، می توانید از نمایه شدن چنین صفحاتی جلوگیری کنید.

اما لازم است توجه داشته باشید که این صفحات می توانند به روش های دیگر نمایه شوند.

به عنوان مثال ، اگر سایت دیگری یا صفحه دیگری در سایت شما به صفحه ی خصوصی لینک داشته باشد ، احتمال فهرست بندی شدن صفحه ی مخفی شما وجود دارد.

جلوگیری از هدر رفتن بودجه خزش سایت

هنگامی که یک وب سایت بزرگ دارید ، خزیدن و نمایه سازی سایت شما می تواند زمان بر باشد.

در این حالت ، می توانید از robots.txt استفاده کنید تا دسترسی به بخشهایی از وب سایت خود را که برای سئو و رتبه بندی مهم نیستند ، محدود کنید. به این ترتیب ، شما نه تنها بار سرور خود را کاهش می دهید ، بلکه کل روند نمایه سازی را سریعتر می کنید.

چگونه robots.txt را پیکربندی کنم؟

چگونه robots.txt را پیکربندی کنم؟
چگونه robots.txt را پیکربندی کنم؟

تنظیم فایل robots.txt می تواند ساده باشد ، اما ابتدا بیایید معنی دو قسمت پروتکل را مرور کنیم:

User-agent : اشاره به خزنده هایی دارد که متن به آنها اشاره می کند
Disallow: نشان می دهد که چه چیزی را می خواهید مسدود کنید ، (آنچه ربات نباید آن را بررسی کند)

علاوه بر این دو بخش اصلی ، می توانید از قسمت سوم نیز استفاده کنید که به صورت برچسب “Allow” است.

اگر زیر شاخه ای دارید که در فهرست مسدود شده قرار دارد ، از این بخش استفاده می شود.

فایل robots.txt ساختار بسیار ساده ای دارد.برخی از کلیدواژه های متداول هستند که می توانید از آن ها استفاده کنید.

رایج ترین آنها عبارتند از: User-agent ، Disallow ، Allow ، Crawl-delay ، Sitemap.

User-agent: Googlebot:دستورالعملی فقط برای ربات Google است.

شما همچنین می توانید از عدم اجازه برای دسترسی به یک زیر پوشه خاص در وب سایت خود استفاده کنید.

به عنوان مثال ، می توانید دسترسی به فهرست عکس های خود را ممنوع کنید ، اما اجازه دسترسی به زیر پوشه عکس های طبیعیت سایت خود را که در قسمت Photos قرار دارد ، بدهید .

:User-agent
Disallow: /photos
Allow: /photos/tabiat/

خزیدن-تاخیر: می توانید مقدار تاخیر خزیدن را مشخص کنید تا خزنده های موتور جستجو را مجبور کنdد تا مدت زمان خاصی منتظر بمانند تا صفحه بعدی وب سایت شما خزیده شود.

مقدار وارد شده بر حسب میلی ثانیه است .

لازم به ذکر است که تاخیر خزیدن توسط ربات گوگل در نظر گرفته نمی شود.

برای کنترل بودجه خزیدن برای Google می توانید از  کنسول جست و جوی گوگل استفاده کنید.

ایجاد یک فایل robots.txt آسان است. تنها چیزی که نیاز دارید یک ویرایشگر متن (مانند نوت پد) و دسترسی به پرونده های وب سایت خود (از طریق FTP یا کنترل پنل) است.

قبل از وارد شدن به فرآیند ایجاد یک فایل robots.txt ، اولین کاری که باید انجام دهید این است که بررسی کنید آیا قبلاً یک فایل با همین نام دارید یا خیر.

ساده ترین راه برای انجام این کار این است که یک پنجره جدید در مرورگر باز کنید و به آدرس

www.sitekhod.com/robots.txt

بروید.

اگر چنین فایلی وجود داشت،آن را کپی کنید.

فایل Robots.txt همیشه در پوشه اصلی (بسته به سرور شما www یا public_html) قرار دارد.

فایل را روی رایانه خود آپلود کرده و با ویرایشگر متن آن را باز کنید.

تغییرات لازم را انجام دهید و فایل را دوباره در سرور خود بارگذاری کنید.

نحوه ایجاد فایل robots.txt جدید

اگر قبلاً robots.txt ندارید ، یک فایل txt جدید با استفاده از ویرایشگر متن ایجاد کنید ، دستورالعمل های خود را اضافه کنید ، آن را ذخیره کرده و در فهرست اصلی وب سایت خود بارگذاری کنید.

مهم: مطمئن شوید که نام فایل شما robots.txt است و نه چیز دیگری.همچنین ، به خاطر داشته باشید که نام فایل به حروف کوچک و بزرگ حساس است ، بنابراین باید همه حروف کوچک باشند.

robots.txt همیشه باید در ریشه وب سایت شما باشد و نه در هیچ پوشه ای.

:User-agent
:Allow/
Sitemap:https://example.com/sitemap.xml

فایل robots.txt با چنین محتویاتی ، به همه ربات ها اجازه می دهد بدون هیچ گونه محدودیتی به وب سایت شما دسترسی پیدا کنند.

همچنین مکان نقشه سایت را مشخص می کند تا مکان یابی آن برای موتورهای جستجو آسان تر شود.

چگونه می توان robots.txt خود را آزمایش و تأیید کرد؟

در حالی که می توانید محتویات robots.txt خود را با پیمایش به آدرس robots.txt مشاهده کنید ، بهترین راه برای آزمایش و تأیید آن از طریق ابزار robots.txt Tester کنسول جستجوی گوگل است.

به ابزار Robots.txt Tester بروید.

روی دکمه Test کلیک کنید.

اگر مشکلی وجود نداشته باشد ، دکمه Test سبز می شود.اگر مشکلی وجود داشته باشد ، خطی که باعث عدم اجازه می شود مشخص می شود.

فایل robots.txt مجازی چیست؟

وردپرس به طور پیش فرض از یک فایل robots.txt مجازی استفاده می کند. این بدان معناست که شما نمی توانید مستقیماً فایل را ویرایش کنید.

تنها راه مشاهده محتویات فایل این است که

www.siteshoma.com/robots.txt

را در مرورگر خود تایپ کنید.

مقادیر پیش فرض robots.txt وردپرس عبارتند از:

:User-agent
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

وقتی گزینه ” Discourage search engines from indexing this site ” در قسمت Search Engine Visibility Settings فعال کنید ، robots.txt به صورت زیر می شود:

:User-agent
Disallow: /

که اساساً دسترسی همه خزنده ها به وب سایت را مسدود می کند.

چگونه می توان robots.txt را در وردپرس ویرایش کرد؟

از آنجا که نمی توانید مستقیم فایل robots.txt مجازی ارائه شده توسط وردپرس را ویرایش کنید ، تنها راه ویرایش آن ایجاد یک فایل جدید و افزودن آن به فهرست اصلی وب سایت است.

نکته:هنگامی که یک فایل فیزیکی در فهرست اصلی وجود دارد ، فایل مجازی وردپرس در نظر گرفته نمی شود.

نکاتی در مورد فایل Robots.txt

فایل robots.txt خود را آزمایش کنید و مطمئن شوید که هیچ قسمتی از وب سایت خود را که می خواهید در موتورهای جستجو ظاهر شود مسدود نمی کنید.

پوشه های CSS یا JS را مسدود نکنید. Google در حین خزیدن و نمایه سازی می تواند یک وب سایت را مانند یک کاربر واقعی مشاهده کند و اگر صفحات شما برای عملکرد صحیح به JS و CSS نیاز دارند ، نباید مسدود شوند.

اگر از وردپرس استفاده می کنید ، نیازی به مسدود کردن دسترسی به پوشه های wp-admin و wp نیست . وردپرس با استفاده از برچسب meta robots به طور خودکار این کار را انجام می دهد.

سعی نکنید قوانین مختلف را در هر ربات موتور جستجو مشخص کنید ، ممکن است گیج کننده بوده و به روز نگه داشتن آن دشوار باشد.

بهتر است از user-agent استفاده کنید و یک مجموعه قوانین برای همه ربات ها ارائه دهید.

اگر می خواهید صفحات را از فهرست بندی موتورهای جستجو حذف کنید ، بهتر است این کار را با استفاده از سربرگ هر صفحه انجام دهید و نه از طریق robots.txt.

خلاصه:

robots.txt یک فایل متنی است که به وسیله ی آن می توانید از دسترسی ربات ها و نمایه شدن بعضی صفحات در نتایج جست و جو ، جلوگیری کنید.

نیازی نیست زمان زیادی را صرف پیکربندی یا بررسی فایل robots.txt کنید.

اما این وظیفه ای است که باید برای اولین بار هنگام ایجاد وب سایت خود یا به عنوان بخشی از اجرای سئو فنی خود ، آن را انجام دهید .

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *