
تنظیمات اصلی فایل robotstxt
فایل robots.txt
مثل یک راهنما برای ربات های موتورهای جستجو عمل می کنه که بهشون میگه توی سایت شما کجاها میتونن سرک بکشن و کجاها نباید برن. این فایل کوچیک و به ظاهر ساده، تاثیر خیلی بزرگی روی سئوی سایت شما داره و می تونه کلی ترافیک براتون بیاره یا برعکس، کلاً سایتتون رو از دید گوگل پنهان کنه. تنظیم درستش برای اینکه سایتتون به بهترین شکل توی نتایج جستجو دیده بشه، حسابی حیاتیه. با هم یاد می گیریم چطور این فایل رو درست و حسابی تنظیم کنیم تا بهترین نتیجه رو بگیریم.
فایل robots.txt
یکی از مهم ترین ابزارهاییه که هر وبمستر یا متخصص سئو باید اونو مثل کف دستش بشناسه. شاید با خودتون بگید مگه یه فایل متنی ساده چقدر می تونه پیچیده باشه؟ راستش رو بخواید، همین سادگی ظاهری، گاهی وقتا باعث میشه اشتباهات بزرگی ازش سر بزنه. یه اشتباه کوچیک توی این فایل می تونه مثل یه مین نامرئی عمل کنه و تمام زحمات سئوی شما رو بر باد بده، از ایندکس شدن صفحات مهم جلوگیری کنه و کلاً سایتتون رو توی نتایج جستجو دفن کنه. اما نگران نباشید! توی این راهنمای جامع و کاربردی، قراره قدم به قدم با هم یاد بگیریم چطور این فایل رو بسازیم، تنظیم کنیم، ویرایشش کنیم و حتی مشکلات احتمالی اون رو پیدا و برطرف کنیم.
هدفمون اینه که بهتون کمک کنیم نه تنها از خطاهای رایج توی تنظیمات robots.txt
دوری کنید، بلکه یاد بگیرید چطور با یه پیکربندی درست، بودجه خزش (Crawl Budget) سایتتون رو بهینه کنید و در نهایت، سایتتون توی موتورهای جستجو حسابی بدرخشه. پس بزن بریم تا یه بار برای همیشه پرونده robots.txt
رو ببندیم و خیال خودمون رو راحت کنیم!
فایل Robots.txt چیست؟ یه تعریف ساده و کاربردی
اگه بخوام خیلی ساده و دوستانه براتون بگم، فایل robots.txt
یه فایل متنی معمولیه که توی ریشه اصلی سایت شما قرار می گیره. کارش اینه که به ربات ها یا همون خزنده های موتورهای جستجو (مثل گوگل بات گوگل، بینگ بات مایکروسافت و…) میگه که کدوم قسمت های سایت شما رو می تونن بخزن (Crawl) و کدوم قسمت ها رو نباید بخزن. در واقع، این فایل یه جور قرارداد بین شما و ربات هاست که بهش پروتکل حذف ربات ها (Robots Exclusion Protocol) هم میگن.
فکر کنید سایت شما یه خونه بزرگه و ربات های گوگل هم مهمون های شما هستن. robots.txt
مثل یه نقشه راهنماست که به مهمون ها میگه: از این در وارد بشید، این اتاق ها رو می تونید ببینید، ولی لطفاً به اون اتاق ها سرک نکشید! این فایل به ربات ها کمک می کنه تا کارشون رو راحت تر انجام بدن و فقط روی محتوای باارزش سایت شما تمرکز کنن.
محل قرارگیری فایل robots.txt
همیشه و همیشه، این فایل باید توی ریشه اصلی (Root Directory) سایت شما باشه. یعنی اگه آدرس سایتتون yourdomain.com
هست، فایل robots.txt
باید دقیقاً توی آدرس yourdomain.com/robots.txt
قابل دسترسی باشه. اگه جای دیگه ای باشه، ربات ها پیداش نمی کنن و اصلاً به دستورالعمل های شما گوش نمیدن.
تفاوت Robots.txt با Meta Robots و X-Robots-Tag
این سه تا ممکنه شبیه به هم به نظر برسن، اما کاربردهاشون با هم فرق داره و دونستن تفاوت هاشون برای یه سئوی حرفه ای، واقعاً مهمه. robots.txt
جلوی خزش (Crawl) رو می گیره، اما Meta Robots
و X-Robots-Tag
جلوی ایندکس شدن (Index) رو میگیرن. یعنی چی؟
robots.txt
: این فایل به ربات ها میگه این صفحه رو اصلاً نرو ببین. یعنی ربات حتی محتوای صفحه رو هم بررسی نمی کنه. اما اگه صفحه از طریق لینک های دیگه شناخته بشه، ممکنه توی نتایج جستجو با یه متن کوتاه و بدون توضیحات ظاهر بشه.Meta Robots
: این یه تگ HTML هست که توی قسمت<head>
صفحات وب قرار می گیره (مثل<meta name=robots content=noindex, follow>
). این تگ به ربات هایی که اون صفحه رو می خزن (یعنی قبلاً بهش دسترسی پیدا کردن)، میگه این صفحه رو ببین ولی ایندکس نکن. اگه یه صفحه روnoindex
کنید، گوگل محتواش رو نمی ذاره توی نتایج جستجو.X-Robots-Tag
: این هم مثلMeta Robots
عمل می کنه، با این تفاوت که به جای اینکه تگ HTML باشه، توی هدر HTTP سرور قرار می گیره. کاربردش بیشتر برای فایل هایی مثل PDF، تصاویر یا ویدیوهاست که نمی تونید توشون تگMeta Robots
بذارید. با این روش هم می تونید جلوی ایندکس شدن اون فایل ها رو بگیرید.
برای اینکه بهتر این تفاوت ها رو بفهمید، یه جدول براتون آماده کردم:
ویژگی | Robots.txt | Meta Robots Tag | X-Robots-Tag |
---|---|---|---|
نوع | فایل متنی در ریشه سایت | تگ HTML در <head> صفحه |
HTTP Header |
محدودیت کاربرد | جلوی خزش (Crawl) را می گیرد. | جلوی ایندکس (Index) را می گیرد. | جلوی ایندکس (Index) را می گیرد. |
محدوده تاثیر | کل سایت، دایرکتوری، فایل | صفحه به صفحه | برای هر نوع فایل (HTML, PDF, Image, etc.) |
زمان اجرا | قبل از خزش صفحه | پس از خزش صفحه | پس از خزش فایل |
امکان ظهور در نتایج | ممکن است URL نمایش داده شود (بدون توضیحات) | URL نمایش داده نمی شود | URL نمایش داده نمی شود |
کاربرد اصلی | مدیریت بودجه خزش، جلوگیری از دسترسی به صفحات بی اهمیت | جلوگیری از ایندکس صفحات با محتوای کم ارزش یا تکراری | جلوگیری از ایندکس فایل ها یا صفحات خاص |
فایل Robots.txt چگونه کار می کند؟ مکانیسم خزش و پیروی ربات ها
خب حالا که فهمیدیم robots.txt
چیه و با بقیه فرمان های روباتی چه فرقی داره، بریم ببینیم این فایل دقیقاً چطور کار می کنه و ربات ها چطور ازش پیروی می کنن. این رو در نظر داشته باشید که ربات های گوگل خیلی باهوش تر از این حرفان که هر دستوری رو بی چون و چرا اجرا کنن، اما robots.txt
هنوز هم نقش مهمی داره.
فرایند کشف و خواندن فایل Robots.txt توسط ربات های موتور جستجو
وقتی یه ربات از موتور جستجو (مثلاً گوگل بات) می خواد سایت شما رو بررسی کنه، اولین کاری که می کنه اینه که می ره سراغ فایل robots.txt
. این ربات ها خیلی منظم هستن و قبل از اینکه شروع به خزش (Crawl) هر صفحه دیگه ای توی سایت شما بکنن، اول میان yourdomain.com/robots.txt
رو چک می کنن. اگه این فایل اونجا باشه و ربات بهش دسترسی داشته باشه، دستورالعمل های داخلش رو می خونه و سعی می کنه ازشون پیروی کنه. اگه فایل رو پیدا نکنه یا نتونه بهش دسترسی پیدا کنه (مثلاً خطای 404 یا 500 بده)، فرض رو بر این می ذاره که همه صفحات قابل خزش هستن و شروع می کنه به سرک کشیدن به همه جای سایت.
مفهوم Crawl Budget و نقش Robots.txt در بهینه سازی آن
کلمه Crawl Budget یا بودجه خزش رو زیاد توی سئو می شنویم. این یعنی چی؟ فکر کنید گوگل یه مقدار مشخص از زمان و منابعش رو برای خزش هر سایت در نظر می گیره. این مقدار برای هر سایت فرق می کنه و به اعتبار، اندازه و محبوبیت اون سایت بستگی داره. هر چقدر سایت شما بزرگ تر و معتبرتر باشه، گوگل بودجه خزش بیشتری بهش اختصاص میده.
حالا robots.txt
اینجا چیکارست؟ این فایل به شما کمک می کنه تا بودجه خزش رو بهینه کنید. با Disallow
کردن (مسدود کردن) صفحات بی اهمیت، تکراری یا خصوصی، به ربات ها میگید که وقت باارزششون رو روی این صفحات هدر ندن و مستقیم برن سراغ محتوای اصلی و مهم شما. اینطوری، گوگل صفحات مهم سایت شما رو سریع تر و کامل تر می خزه و ایندکس می کنه که خودش کلی برای سئو خوبه.
چرا ربات ها گاهی Robots.txt را نادیده می گیرند؟ (نشان دادن صفحات مسدود شده در نتایج)
یه نکته خیلی مهم که خیلیا رو گیج می کنه اینه که گاهی وقتا شما یه صفحه رو توی robots.txt
مسدود می کنید (Disallow
)، ولی هنوزم اون صفحه توی نتایج جستجوی گوگل نشون داده میشه. خب چرا این اتفاق می افته؟
دلیلش اینه که robots.txt
فقط جلوی خزش (Crawl) رو می گیره، نه ایندکس (Index) شدن. اگه صفحه ای که شما Disallow
کردید، از طریق لینک های خارجی یا داخلی (حتی توی خود سایت شما) ارجاع داده شده باشه، گوگل ممکنه URL اون صفحه رو بشناسه و حتی بدون اینکه محتواش رو بخزه، اون رو توی نتایج جستجو نشون بده. البته معمولاً این صفحات بدون توضیحات (Description) و فقط با عنوان و URL نمایش داده میشن.
برای جلوگیری از این اتفاق، باید از دستور noindex
استفاده کنید. یعنی اگه می خواید صفحه ای به هیچ عنوان توی نتایج جستجو ظاهر نشه، باید از meta robots=noindex
یا X-Robots-Tag: noindex
استفاده کنید. این نکته خیلی خیلی مهمه! robots.txt
جلوی خزش رو می گیره، اما noindex
جلوی ایندکس شدن رو.
یادتون باشه:
robots.txt
به ربات ها میگه اینجا نیا، اماnoindex
بهشون میگه اگه هم اومدی، اینو توی لیستت نذار!
چرا به فایل Robots.txt نیاز دارید؟ اهداف و کاربردهای کلیدی
حالا که حسابی با robots.txt
و سازوکارش آشنا شدیم، بیاید ببینیم اصلاً چرا باید اینقدر بهش اهمیت بدیم و چه کاربردهایی برامون داره. باور کنید، این فایل کوچیک می تونه مثل یه دستیار خفن توی سئوی سایت شما عمل کنه.
کنترل ایندکس شدن: جلوگیری از خزش و ایندکس شدن صفحات کم ارزش یا حساس
شاید توی سایتتون صفحاتی داشته باشید که نمی خواید گوگل اونا رو ببینه و توی نتایج جستجو نشون بده. مثلاً صفحات مدیریتی، صفحات سبد خرید خالی، نتایج جستجوی داخلی سایت، یا حتی صفحاتی که هنوز کامل نشدن و دارن روشون کار می کنید. با robots.txt
می تونید جلوی خزش این صفحات رو بگیرید. اینطوری هم از گوگل بات درخواست می کنید که وقتش رو روی این صفحات نذاره و هم جلوی دیده شدن اطلاعات حساس یا بی ارزش رو توی نتایج جستجو می گیرید.
- مثال: دایرکتوری
/wp-admin/
توی وردپرس رو مسدود می کنیم تا گوگل بات واردش نشه. - مثال: نتایج جستجوی داخلی سایت که معمولاً محتوای تکراری و بی کیفیت دارن.
مدیریت بودجه خزش (Crawl Budget): هدایت ربات ها به سمت محتوای مهم تر
همونطور که قبلاً گفتیم، گوگل برای هر سایت یه بودجه خزش در نظر می گیره. با مسدود کردن صفحات بی اهمیت، در واقع به گوگل میگید آقا یا خانم ربات، این قسمت ها مهم نیستن، لطفاً تمام توان و وقتتو بذار روی این صفحات محصول یا این مقالات خفن من! اینطوری مطمئن میشید که گوگل صفحات اصلی و مهم شما رو با اولویت بیشتری می خزه و بهشون اهمیت میده.
تعیین مسیر نقشه های سایت (Sitemap): معرفی فایل های XML Sitemap به موتورهای جستجو
نقشه سایت XML یا همون Sitemap.xml، یه فایل خیلی مهمه که تمام URLهای مهم سایت شما رو به گوگل معرفی می کنه. با استفاده از دستور Sitemap
توی robots.txt
، می تونید آدرس نقشه سایتتون رو به گوگل معرفی کنید. اینطوری گوگل راحت تر می تونه نقشه سایت شما رو پیدا کنه و صفحات جدید یا به روز شده رو سریع تر شناسایی و ایندکس کنه. این کار به خصوص برای سایت های بزرگ با هزاران صفحه، واقعاً ضروریه.
کاهش بار سرور: جلوگیری از خزش غیرضروری و کاهش فشار بر منابع هاست
ربات های موتور جستجو برای خزش صفحات سایت شما، از منابع سرور استفاده می کنن. اگه سایت شما خیلی بزرگه یا تعداد زیادی صفحه بی اهمیت داره که ربات ها دائماً اونا رو می خزن، ممکنه فشار زیادی روی سرور بیاد. با Disallow
کردن این صفحات، ترافیک ربات ها به سمت سایتتون رو مدیریت می کنید و فشار روی سرور رو کاهش میدید. این به خصوص برای سایت هایی که هاست ضعیف تری دارن یا درگیر مشکلات سرور هستن، می تونه خیلی مفید باشه.
آشنایی با ساختار و دستورالعمل های اصلی فایل Robots.txt (سینتکس کامل)
فایل robots.txt
ساختار خیلی ساده ای داره و از یه سری دستورالعمل (Directive) تشکیل شده. هر دستورالعمل به ربات ها میگه که چه کاری رو انجام بدن یا ندن. بیاین با مهم ترین قسمت ها و دستوراتش آشنا بشیم.
User-agent
: تعریف ربات های مورد نظر
هر بلوک دستورالعمل توی فایل robots.txt
با User-agent
شروع میشه. این دستور مشخص می کنه که دستورالعمل های بعدی برای کدوم ربات (یا ربات ها) اعمال میشه. رایج ترین User-agent
ها اینا هستن:
User-agent: Googlebot
: این دستورالعمل ها فقط برای ربات اصلی گوگل (رباتی که صفحات رو می خزه و ایندکس می کنه) اعمال میشه.User-agent: Bingbot
: فقط برای ربات موتور جستجوی بینگ.User-agent: *
: این یه دستور کلیه و به همه ربات ها (به جز ربات های خاص مثل AdSenseBot) میگه که از دستورالعمل های زیر پیروی کنن. اگه یه ربات خاص مثل Googlebot دستورالعمل خاص خودش رو داشته باشه، اولویت با همون دستورالعمل خاصه.
User-agent: Googlebot
Disallow: /wp-admin/
User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/
توی این مثال، /wp-admin/
فقط برای گوگل بات مسدود شده، اما /cgi-bin/
و /temp/
برای همه ربات ها مسدود شدن.
Disallow
: دستور اصلی برای جلوگیری از خزش
این مهم ترین دستور توی robots.txt
هست. با استفاده از Disallow
می تونید جلوی خزش یک صفحه، یک دایرکتوری، یا حتی کل سایت رو بگیرید. فقط یادتون باشه که بعد از Disallow:
باید مسیر رو از ریشه سایت وارد کنید.
- مسدود کردن کل سایت:
User-agent: * Disallow: /
این کد به تمام ربات ها میگه که هیچ صفحه ای از سایت رو نخزن. مراقب باشید، چون با این کار سایتتون از گوگل حذف میشه!
- مسدود کردن یک دایرکتوری خاص:
User-agent: * Disallow: /wp-admin/
این کد جلوی خزش تمام فایل ها و زیرشاخه های داخل دایرکتوری
wp-admin
رو می گیره. - مسدود کردن یک فایل خاص:
User-agent: * Disallow: /private-document.pdf
این کد جلوی خزش فایل
private-document.pdf
رو می گیره. - مسدود کردن URLهای شامل پارامتر:
User-agent: * Disallow: /*?
این کد جلوی خزش تمام URLهایی که دارای علامت سوال (پارامتر) هستن رو می گیره (مثل
example.com/page?id=123
). - مسدود کردن فایل ها با پسوند خاص:
User-agent: * Disallow: /*.zip$
این کد جلوی خزش تمام فایل های ZIP رو می گیره (علامت
$
یعنی پایان خط و*
یعنی هر چیزی قبل از).
Allow
: استثنا قائل شدن برای خزش در یک مسیر مسدود شده
این دستور دقیقاً برعکس Disallow
عمل می کنه و به شما اجازه میده تا توی یک دایرکتوری مسدود شده، استثنا قائل بشید و به ربات ها اجازه بدید یک بخش خاص رو بخزن. این دستور معمولاً بعد از Disallow
میاد.
- مثال کاربردی: فرض کنید کل پوشه
/assets/
روDisallow
کردید، اما می خواید فقط فایل CSS اصلی توی اون پوشه توسط گوگل بات خزیده بشه تا سایتتون درست رندر بشه.User-agent: * Disallow: /assets/ Allow: /assets/main.css
توی این حالت، همه چیز توی
/assets/
مسدوده به جزmain.css
.
Sitemap
: نحوه معرفی فایل های نقشه سایت (XML Sitemap)
این دستور به موتورهای جستجو میگه که نقشه سایت شما کجاست. این کار بهشون کمک می کنه تا صفحات سایت شما رو بهتر و سریع تر پیدا کنن. معمولاً در انتهای فایل robots.txt
قرار می گیره.
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.yourdomain.com/sitemap.xml
Sitemap: https://www.yourdomain.com/post-sitemap.xml
Crawl-delay
: توضیح این دستور و اینکه گوگل آن را پشتیبانی نمی کند
دستور Crawl-delay
به ربات ها میگه که بین هر بار خزش یک صفحه، چند ثانیه صبر کنن تا فشار روی سرور کمتر بشه. مثلاً Crawl-delay: 10
یعنی 10 ثانیه صبر کن. اما یه نکته مهم اینه که گوگل این دستور رو رسماً پشتیبانی نمی کنه و بهش توجهی نداره. البته بعضی موتورهای جستجوی دیگه مثل بینگ یا یاهو هنوز هم ازش استفاده می کنن. برای گوگل، بهتره از تنظیمات Crawl rate توی گوگل سرچ کنسول استفاده کنید.
#
: استفاده از کامنت ها برای خوانایی بهتر کد
مثل خیلی از زبان های برنامه نویسی، توی robots.txt
هم می تونید با گذاشتن علامت #
در ابتدای خط، اون خط رو کامنت کنید. کامنت ها توسط ربات ها نادیده گرفته میشن و فقط برای خود شما هستن تا کدهاتون خواناتر باشه و یادتون نره هر خط چی کار می کنه.
# این دستور برای بلاک کردن بخش ادمین سایت هست
User-agent: *
Disallow: /wp-admin/
نکات مهم در مورد حروف بزرگ/کوچک، اسلش و کاراکترهای خاص
- حروف بزرگ و کوچک:
robots.txt
به حروف بزرگ و کوچک حساسه. یعنی/Page.html
با/page.html
فرق می کنه. مسیرها رو دقیقاً همونطور که توی URL سایتتون هست، بنویسید. - اسلش انتهایی (Trailing Slash): وجود یا عدم وجود اسلش در انتهای مسیرها مهمه.
Disallow: /folder
باDisallow: /folder/
فرق داره. اولی فایلfolder
رو مسدود می کنه و دومی دایرکتوریfolder
و تمام محتویات داخلش رو. - کاراکترهای خاص:
*
(ستاره) به معنی هر تعداد کاراکتر و$
(دلار) به معنی پایان مسیر هستن که توی مثال ها دیدیم.
گام به گام: چگونه فایل Robots.txt را ایجاد یا ویرایش کنیم؟ (با تمرکز بر عملی بودن)
حالا که با دستورات اصلی آشنا شدیم، وقتشه بریم سر اصل مطلب و یاد بگیریم چطور این فایل رو بسازیم یا ویرایش کنیم. دو روش اصلی برای این کار وجود داره: دستی از طریق هاست یا با استفاده از افزونه ها توی CMSها مثل وردپرس.
نحوه بررسی اینکه آیا سایت شما هم اکنون فایل Robots.txt دارد یا خیر؟
قبل از هر کاری، اول باید مطمئن بشید که اصلاً سایتتون robots.txt
داره یا نه. کافیه آدرس سایتتون رو توی مرورگر وارد کنید و در انتها /robots.txt
رو اضافه کنید. مثلاً: https://www.yourdomain.com/robots.txt
. اگه یه فایل متنی باز شد، یعنی داریدش. اگه خطای 404 (Not Found) داد، یعنی ندارید و باید بسازیدش.
روش اول: دستی از طریق هاست (cPanel / DirectAdmin / FTP)
این روش برای همه سایت ها، چه وردپرس باشن چه هر سیستم دیگه، قابل استفاده ست و بهترین روش برای کنترل دقیق روی فایل هست.
- دسترسی به روت هاست:
- از طریق cPanel یا DirectAdmin: وارد پنل هاستینگتون بشید و روی گزینه File Manager یا مدیریت فایل کلیک کنید. معمولاً باید وارد پوشه
public_html
یاwww
بشید که ریشه اصلی سایتتونه. - از طریق FTP (مثل FileZilla): با استفاده از نرم افزارهای FTP مثل FileZilla، به هاستتون وصل بشید. بعد از اتصال، شما مستقیماً وارد ریشه هاست می شید. پوشه
public_html
(یا مشابهش) رو پیدا کنید.
- از طریق cPanel یا DirectAdmin: وارد پنل هاستینگتون بشید و روی گزینه File Manager یا مدیریت فایل کلیک کنید. معمولاً باید وارد پوشه
- پیدا کردن یا ساخت فایل
robots.txt
:- اگه فایل هست: اگه قبلاً
robots.txt
وجود داره، روش کلیک راست کنید و گزینه Edit یا ویرایش رو انتخاب کنید. - اگه فایل نیست: روی گزینه New File یا ایجاد فایل جدید کلیک کنید و اسم فایل رو دقیقاً
robots.txt
بنویسید (با حروف کوچک و بدون هیچ پسوند اضافه ای).
- اگه فایل هست: اگه قبلاً
- نوشتن یا ویرایش محتوا:
فایل رو باز کنید و دستورالعمل های مورد نظرتون رو توش بنویسید. مثلاً یه فایل
robots.txt
پایه برای اکثر سایت ها می تونه این باشه:User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/*.php Disallow: /wp-login.php Disallow: /xmlrpc.php Disallow: /feed/ Disallow: /comments/feed/ Disallow: /trackback/ Allow: /wp-content/uploads/ Allow: /wp-content/themes/*.css Allow: /wp-content/themes/*.js Sitemap: https://www.yourdomain.com/sitemap_index.xml
این یه نمونه پرکاربرده که بخش های مدیریتی و فایل های سیستمی رو مسدود می کنه، اما به فایل های CSS، JS و تصاویر (که برای رندر سایت ضروری هستن) اجازه خزش میده و نقشه سایت رو هم معرفی می کنه.
- ذخیره و آپلود فایل:
بعد از اینکه تغییرات رو اعمال کردید، حتماً فایل رو Save Changes یا ذخیره تغییرات کنید. اگه از FTP استفاده می کنید، مطمئن بشید که فایل رو به درستی آپلود کردید.
روش دوم: استفاده از افزونه ها در سیستم های مدیریت محتوا (CMS) مانند وردپرس
اگه سایتتون وردپرسیه، کارتون خیلی راحت تره و می تونید از افزونه های سئو استفاده کنید.
- معرفی افزونه های محبوب سئو:
افزونه هایی مثل Yoast SEO و Rank Math امکان ویرایش
robots.txt
رو داخل پیشخوان وردپرس بهتون میدن.- Yoast SEO:
بعد از نصب و فعال سازی Yoast، از منوی کناری وردپرس به Yoast SEO برید و بعد Tools رو انتخاب کنید. در این قسمت، روی File editor کلیک کنید. اگه فایل
robots.txt
وجود داشته باشه، می تونید محتواش رو ویرایش کنید. اگه نباشه، Yoast بهتون پیشنهاد میده که یه فایل بسازید. - Rank Math:
در افزونه Rank Math، از منوی کناری به Rank Math برید و بعد General Settings رو انتخاب کنید. در این بخش، Edit Robots.txt رو پیدا می کنید که می تونید از اونجا فایل رو ویرایش کنید.
- Yoast SEO:
- نکات مهم:
- اگه از افزونه استفاده می کنید، نیازی نیست دستی فایل رو توی هاست ویرایش کنید. افزونه خودش این کار رو براتون انجام میده.
- اگه همزمان هم دستی فایل رو توی هاست ویرایش کنید و هم از افزونه استفاده کنید، ممکنه تداخل پیش بیاد. بهتره فقط از یک روش استفاده کنید.
چه صفحاتی را باید با Robots.txt مسدود کرد؟ (با مثال های واقعی و توصیه های تخصصی)
انتخاب درست صفحاتی که باید مسدود بشن، خیلی مهمه. یادتون باشه که هدف اصلی، جلوگیری از خزش صفحات بی ارزش و تمرکز ربات ها روی محتوای باکیفیت و مهم شماست.
- صفحات مدیریتی و لاگین (wp-admin, dashboard, cpanel, admin):
این صفحات نباید توی نتایج جستجو دیده بشن و اصلاً نیازی نیست ربات ها اونا رو بخزن. اگه از وردپرس استفاده می کنید، حتماً
/wp-admin/
و/wp-login.php
رو مسدود کنید.Disallow: /wp-admin/ Disallow: /wp-login.php
- صفحات جستجوی داخلی سایت:
اگه سایتتون قابلیت جستجوی داخلی داره، نتایج جستجو معمولاً محتوای تکراری و کم ارزشی تولید می کنن که بهتره مسدود بشن تا بودجه خزش هدر نره. معمولاً URL این صفحات شامل
?s=
یا/search/
هست.Disallow: /*?s=* Disallow: /search/
- فایل های سیستمی و غیرضروری (مثل فایل های بک آپ، لوگ ها):
هر فایل یا پوشه ای که مربوط به تنظیمات، بک آپ ها، لاگ ها یا اطلاعات حساس سرور هست و نباید در دسترس عموم قرار بگیره، حتماً باید مسدود بشه.
Disallow: /backup/ Disallow: /logs/ Disallow: /.git/
- فایل های CSS، JS و تصاویر (در صورت عدم نیاز به ایندکس، با تاکید بر عدم بلاک کردن فایل های حیاتی برای رندرینگ):
به طور کلی، فایل های CSS و JavaScript و تصاویر برای رندر شدن صحیح صفحات شما توسط گوگل ضروری هستن و نباید مسدود بشن. گوگل برای ارزیابی تجربه کاربری، نیاز داره که سایت شما رو درست ببینه. مگر در شرایط خاص که مطمئن هستید یه فایل تصویری یا JS خاص (مثلاً برای نمایش یک آگهی غیرضروری) اصلاً نباید ایندکس بشه، اون موقع می تونید مسدودش کنید. اما در ۹۹ درصد موارد، این فایل ها باید قابل خزش باشن.
# اینها را هرگز مسدود نکنید، مگر اینکه کاملا مطمئن باشید! # User-agent: * # Disallow: /*.css$ # Disallow: /*.js$ # Disallow: /*.jpg$
- صفحات تکراری (Duplicate Content) که از طریق
canonical
یاnoindex
کنترل نشده اند (با احتیاط):اگه صفحاتی دارید که محتوای تکراری دارن (مثلاً نسخه های مختلف یک محصول با پارامترهای URL متفاوت) و به هر دلیلی نتونستید با تگ
canonical
یاnoindex
اون ها رو مدیریت کنید، می تونید با احتیاط تویrobots.txt
مسدودشون کنید. اما تاکید می کنم،canonical
وnoindex
روش های بهتری هستن.Disallow: /*?color=*&size=*
- صفحات تست، توسعه یا مربوط به staging:
اگه روی نسخه های آزمایشی سایتتون (مثل
dev.yourdomain.com
یاyourdomain.com/staging
) کار می کنید، حتماًrobots.txt
اون ها رو طوری تنظیم کنید که از موتورهای جستجو مخفی بمونن. بهترین کار اینه که کلاً اون سایت روDisallow: /
کنید تا از ایندکس شدن ناخواسته محتوای ناقص جلوگیری بشه. - صفحات فیلترینگ یا پارامتری:
در فروشگاه های آنلاین یا سایت هایی که فیلترهای زیادی دارن (مثل فیلتر رنگ، سایز، قیمت)، URLهای زیادی با پارامترهای مختلف ایجاد میشن که اغلب محتوای تکراری تولید می کنن و نیازی به خزش ندارن. می تونید با دستورات پیچیده تر
Disallow
این صفحات رو مسدود کنید.Disallow: /*?filter=* Disallow: /*?sort=*
اشتباهات رایج در تنظیم Robots.txt و نحوه جلوگیری از آن ها
همونطور که گفتیم، robots.txt
ابزار قدرتمندیه ولی یه اشتباه کوچیک می تونه فاجعه بار باشه. بیاید با رایج ترین اشتباهات و چگونگی جلوگیری ازشون آشنا بشیم.
- مسدود کردن کل سایت (
Disallow: /
):این بزرگترین و رایج ترین اشتباهیه که حتی متخصصان سئو هم گاهی ناخواسته انجام میدن. اگه این دستور رو توی
robots.txt
بذارید، یعنی به تمام ربات ها میگید که کل سایت رو نخزن و نتیجه اش اینه که سایت شما به مرور از نتایج جستجو حذف میشه. همیشه قبل از ذخیره کردن تغییرات، حتماً دستورات رو چند بار چک کنید. - مسدود کردن فایل های CSS/JS حیاتی برای رندرینگ:
یکی از اشتباهات قدیمی و خطرناک، مسدود کردن فایل های CSS و JavaScript اصلی سایت بود. گوگل برای اینکه بفهمه سایت شما چطور به کاربر نشون داده میشه، نیاز داره که این فایل ها رو بخزه و پردازش کنه. اگه این فایل ها بلاک بشن، گوگل سایت شما رو مثل یه صفحه خالی و بدون استایل می بینه و ممکنه رتبه تون رو از دست بدید. همیشه مطمئن بشید که فایل های اصلی CSS و JS قابل خزش هستن.
- مسدود کردن فایل نقشه سایت (Sitemap):
شاید خنده دار به نظر بیاد، ولی بعضی وقتا افراد به اشتباه فایل
sitemap.xml
رو تویrobots.txt
مسدود می کنن. اگه این فایل مسدود بشه، گوگل نمی تونه نقشه سایت شما رو پیدا کنه و در نتیجه ممکنه نتونه تمام صفحات جدید یا به روز شده شما رو به موقع ایندکس کنه.# اشتباه! این کار را نکنید: # Disallow: /sitemap.xml
- استفاده نادرست از
robots.txt
به جایnoindex
(توضیح تفاوت و کاربرد صحیح هر یک):قبلاً توضیح دادم، اما باز هم تاکید می کنم:
robots.txt
فقط جلوی خزش رو می گیره، نه ایندکس شدن. اگه می خواید یک صفحه اصلاً توی نتایج جستجو ظاهر نشه، باید ازmeta robots=noindex
یاX-Robots-Tag: noindex
استفاده کنید.robots.txt
به تنهایی این تضمین رو نمیده. استفاده ازrobots.txt
برای مخفی کردن صفحات از نتایج جستجو، یه اشتباه رایجه. - فراموشی به روزرسانی
robots.txt
پس از تغییرات مهم در ساختار سایت:وقتی ساختار URL سایتتون رو تغییر میدید، دایرکتوری ها رو جابجا می کنید یا صفحات جدید و مهمی اضافه می کنید، حتماً
robots.txt
رو هم به روز کنید. اگه یک صفحه مهم رو جابجا کنید و مسیر جدیدش رو به اشتباهDisallow
کنید، یا یک بخش جدید رو اضافه کنید و یادتون بره بهش اجازه خزش بدید، می تونه کلی مشکل سئویی درست کنه. - خطاهای نوشتاری و سینتکسی:
یه اسپیس اضافی، یه اسلش جا افتاده یا یه حرف بزرگ/کوچیک اشتباه، می تونه کل دستور رو بی اثر کنه یا بدتر، باعث بشه ربات ها مسیرهای اشتباهی رو مسدود کنن.
robots.txt
به سینتکسش خیلی حساسه. همیشه از ابزارهای تست برای بررسی فایل استفاده کنید.
چگونه فایل Robots.txt خود را تست و اعتبارسنجی کنیم؟
بعد از اینکه فایل robots.txt
رو ساختید یا ویرایش کردید، مهم ترین کار اینه که از صحت عملکردش مطمئن بشید. خوشبختانه گوگل ابزارهای خوبی برای این کار در اختیارمون گذاشته.
ابزار Robots.txt Tester
در Google Search Console: راهنمای کامل استفاده
ابزار Robots.txt Tester
توی گوگل سرچ کنسول، بهترین راه برای بررسی فایل robots.txt
شماست. با این ابزار می تونید ببینید گوگل بات چطور دستورات شما رو تفسیر می کنه و آیا URL خاصی که مد نظرتونه، مسدود شده یا نه.
- ورود به Google Search Console:
وارد حساب کاربری گوگل سرچ کنسول خودتون بشید. اگه هنوز سایتتون رو توی سرچ کنسول ثبت نکردید، حتماً این کار رو بکنید.
- دسترسی به ابزار:
از منوی سمت چپ، به قسمت Legacy tools and reports برید و بعد روی Robots.txt Tester کلیک کنید.
- مشاهده فایل فعلی:
در بالای صفحه، فایل
robots.txt
فعلی سایت شما نمایش داده میشه. اگه خطایی در فایل باشه، با رنگ قرمز مشخص میشه. - تست URLهای خاص:
در پایین صفحه، یه کادر برای وارد کردن URL وجود داره. می تونید URL صفحه ای رو که می خواید تست کنید (مثلاً یه صفحه مدیریتی که می خواید مطمئن بشید مسدوده)، وارد کنید. بعد روی دکمه Test کلیک کنید.
- بررسی نتیجه:
ابزار به شما میگه که آیا URL مورد نظر برای گوگل بات (یا هر User-agent دیگه ای که انتخاب کنید) Allowed (اجازه خزش دارد) یا Disallowed (مسدود شده است). اگه Disallowed بود، دلیل مسدود شدن رو هم نشون میده که مربوط به کدوم خط از
robots.txt
هست. - اعمال تغییرات و Submit کردن:
اگه تغییراتی توی
robots.txt
توی هاستتون ایجاد کردید، می تونید اونا رو توی این ابزار کپی و پیست کنید و تست کنید. بعد از مطمئن شدن، می تونید از طریق همین ابزار، نسخه جدید رو به گوگل سابمیت کنید تا سریع تر به روز بشه (البته گوگل هر 24 ساعت یک بار خودش این فایل رو چک می کنه).
ابزارهای آنلاین دیگر برای اعتبارسنجی robots.txt
علاوه بر سرچ کنسول، سایت های زیادی هستن که ابزارهای آنلاین برای تست robots.txt
ارائه میدن. فقط کافیه online robots.txt tester رو سرچ کنید. این ابزارها هم می تونن برای بررسی سریع فایل شما مفید باشن.
نظارت بر گزارش Crawl Stats
در Google Search Console برای بررسی تاثیر robots.txt
توی سرچ کنسول، قسمتی به نام Crawl Stats یا آمار خزش وجود داره. این گزارش بهتون نشون میده که گوگل بات چقدر سایت شما رو می خزه، چند تا صفحه رو در روز بررسی می کنه و چه خطاهایی در حین خزش پیش میاد. با بررسی منظم این گزارش، می تونید تاثیر تغییراتی که توی robots.txt
ایجاد کردید رو ببینید و مطمئن بشید که بودجه خزش به بهترین شکل داره مدیریت میشه.
بهترین روش ها و نکات پیشرفته برای مدیریت Robots.txt
برای اینکه robots.txt
شما همیشه بهترین عملکرد رو داشته باشه و به سئوتون کمک کنه، چند تا نکته حرفه ای و بهترین روش رو باید رعایت کنید.
نگهداری فایل robots.txt
مختصر و بهینه
فایل robots.txt
رو شلوغ و پر از دستورات غیرضروری نکنید. فقط دستورات ضروری رو توش نگه دارید. هر چقدر فایل ساده تر و خواناتر باشه، احتمال خطا کمتر میشه و مدیریتشم راحت تره.
اولویت بندی دستورات در فایل
وقتی یک ربات چندین دستورالعمل رو برای یک مسیر پیدا می کنه، معمولاً از طولانی ترین و خاص ترین دستورالعمل پیروی می کنه. یعنی اگه یک Disallow
کلی و یک Allow
جزئی برای یک مسیر داشته باشید، Allow
اولویت پیدا می کنه. مثلاً:
User-agent: *
Disallow: /folder/
Allow: /folder/subfolder/
توی این مثال، کل /folder/
مسدوده، اما /folder/subfolder/
قابل خزشه.
نکات امنیتی (جلوگیری از افشای اطلاعات حساس از طریق robots.txt
)
مراقب باشید که robots.txt
رو به عنوان یک ابزار امنیتی نبینید! چون این فایل عمومی و قابل دسترسه، هر کسی می تونه اون رو بخونه. اگه توی robots.txt
مسیر فایل های حساس یا خصوصی رو مسدود کنید، در واقع دارید به هکرها و افراد کنجکاو میگید که آقا یا خانم، اطلاعات مهم ما اینجاست، ولی لطفاً دست نزنید! این کار مثل اینه که یه تابلوی بزرگ بذارید و آدرس گنج رو بنویسید! برای محافظت از اطلاعات حساس، از روش های واقعی امنیتی مثل پسوردگذاری، محدود کردن دسترسی با .htaccess و … استفاده کنید، نه robots.txt
.
مدیریت robots.txt
برای ساب دامین ها و سایت های چندزبانه/چنددامنه ای
اگه سایتتون ساب دامین های جداگانه داره (مثل blog.yourdomain.com
یا shop.yourdomain.com
)، هر ساب دامین باید robots.txt
مخصوص به خودش رو داشته باشه که توی ریشه اون ساب دامین قرار می گیره. برای سایت های چندزبانه یا چنددامنه ای هم که هر زبان یا دامنه یه دایرکتوری یا دامنه جدا داره، باید مطمئن بشید که robots.txt
درست برای هر کدوم تنظیم شده.
بررسی دوره ای فایل robots.txt
و به روزرسانی آن
robots.txt
یه فایلی نیست که یک بار تنظیمش کنید و تا ابد فراموشش کنید. هر وقت تغییرات مهمی توی ساختار سایتتون ایجاد می کنید، صفحات جدیدی اضافه یا حذف می کنید، یا استراتژی سئوتون عوض میشه، حتماً robots.txt
رو هم بررسی و در صورت نیاز به روزرسانی کنید. یه چک آپ منظم، جلوی خیلی از مشکلات رو می گیره.
نتیجه گیری: خلاصه ای از نکات کلیدی و فراخوان به اقدام
دیدیم که فایل robots.txt
با تمام سادگیش، یه ابزار فوق العاده مهم و حیاتی برای سئوی سایت شماست. با تنظیم درست و دقیق این فایل، می تونید به موتورهای جستجو نشون بدید که کدوم قسمت های سایتتون رو باید بیشتر دوست داشته باشن و روی کدوم ها وقت نذارن. این کار باعث میشه بودجه خزش سایتتون به بهترین شکل مصرف بشه و محتوای باارزشتون سریع تر و بهتر ایندکس بشه.
یادتون باشه که robots.txt
فقط یه راهنما برای ربات هاست و جلوی ایندکس شدن کامل رو نمی گیره. برای کنترل ایندکس، حتماً باید از تگ های noindex
استفاده کنید. همچنین، توی تنظیماتتون خیلی دقت کنید و هرگز فایل های مهم مثل CSS و JS رو مسدود نکنید تا رندر سایتتون دچار مشکل نشه.
پس حالا که همه چی رو یاد گرفتید، پیشنهاد می کنم همین الان برید سراغ سایت خودتون، فایل robots.txt
رو چک کنید و اگه لازم بود، با دقت و وسواس تمام، اون رو بهینه سازی کنید. مطمئن باشید این کار کوچیک، تاثیر بزرگی روی سئوی سایت شما خواهد داشت.
آیا شما به دنبال کسب اطلاعات بیشتر در مورد "تنظیمات فایل Robots.txt – راهنمای کامل بهینه سازی سئو" هستید؟ با کلیک بر روی عمومی، ممکن است در این موضوع، مطالب مرتبط دیگری هم وجود داشته باشد. برای کشف آن ها، به دنبال دسته بندی های مرتبط بگردید. همچنین، ممکن است در این دسته بندی، سریال ها، فیلم ها، کتاب ها و مقالات مفیدی نیز برای شما قرار داشته باشند. بنابراین، همین حالا برای کشف دنیای جذاب و گسترده ی محتواهای مرتبط با "تنظیمات فایل Robots.txt – راهنمای کامل بهینه سازی سئو"، کلیک کنید.