تنظیمات فایل Robots.txt – راهنمای کامل بهینه سازی سئو

تنظیمات فایل Robots.txt - راهنمای کامل بهینه سازی سئو

تنظیمات اصلی فایل robotstxt

فایل robots.txt مثل یک راهنما برای ربات های موتورهای جستجو عمل می کنه که بهشون میگه توی سایت شما کجاها میتونن سرک بکشن و کجاها نباید برن. این فایل کوچیک و به ظاهر ساده، تاثیر خیلی بزرگی روی سئوی سایت شما داره و می تونه کلی ترافیک براتون بیاره یا برعکس، کلاً سایتتون رو از دید گوگل پنهان کنه. تنظیم درستش برای اینکه سایتتون به بهترین شکل توی نتایج جستجو دیده بشه، حسابی حیاتیه. با هم یاد می گیریم چطور این فایل رو درست و حسابی تنظیم کنیم تا بهترین نتیجه رو بگیریم.

فایل robots.txt یکی از مهم ترین ابزارهاییه که هر وبمستر یا متخصص سئو باید اونو مثل کف دستش بشناسه. شاید با خودتون بگید مگه یه فایل متنی ساده چقدر می تونه پیچیده باشه؟ راستش رو بخواید، همین سادگی ظاهری، گاهی وقتا باعث میشه اشتباهات بزرگی ازش سر بزنه. یه اشتباه کوچیک توی این فایل می تونه مثل یه مین نامرئی عمل کنه و تمام زحمات سئوی شما رو بر باد بده، از ایندکس شدن صفحات مهم جلوگیری کنه و کلاً سایتتون رو توی نتایج جستجو دفن کنه. اما نگران نباشید! توی این راهنمای جامع و کاربردی، قراره قدم به قدم با هم یاد بگیریم چطور این فایل رو بسازیم، تنظیم کنیم، ویرایشش کنیم و حتی مشکلات احتمالی اون رو پیدا و برطرف کنیم.

هدفمون اینه که بهتون کمک کنیم نه تنها از خطاهای رایج توی تنظیمات robots.txt دوری کنید، بلکه یاد بگیرید چطور با یه پیکربندی درست، بودجه خزش (Crawl Budget) سایتتون رو بهینه کنید و در نهایت، سایتتون توی موتورهای جستجو حسابی بدرخشه. پس بزن بریم تا یه بار برای همیشه پرونده robots.txt رو ببندیم و خیال خودمون رو راحت کنیم!

فایل Robots.txt چیست؟ یه تعریف ساده و کاربردی

اگه بخوام خیلی ساده و دوستانه براتون بگم، فایل robots.txt یه فایل متنی معمولیه که توی ریشه اصلی سایت شما قرار می گیره. کارش اینه که به ربات ها یا همون خزنده های موتورهای جستجو (مثل گوگل بات گوگل، بینگ بات مایکروسافت و…) میگه که کدوم قسمت های سایت شما رو می تونن بخزن (Crawl) و کدوم قسمت ها رو نباید بخزن. در واقع، این فایل یه جور قرارداد بین شما و ربات هاست که بهش پروتکل حذف ربات ها (Robots Exclusion Protocol) هم میگن.

فکر کنید سایت شما یه خونه بزرگه و ربات های گوگل هم مهمون های شما هستن. robots.txt مثل یه نقشه راهنماست که به مهمون ها میگه: از این در وارد بشید، این اتاق ها رو می تونید ببینید، ولی لطفاً به اون اتاق ها سرک نکشید! این فایل به ربات ها کمک می کنه تا کارشون رو راحت تر انجام بدن و فقط روی محتوای باارزش سایت شما تمرکز کنن.

محل قرارگیری فایل robots.txt

همیشه و همیشه، این فایل باید توی ریشه اصلی (Root Directory) سایت شما باشه. یعنی اگه آدرس سایتتون yourdomain.com هست، فایل robots.txt باید دقیقاً توی آدرس yourdomain.com/robots.txt قابل دسترسی باشه. اگه جای دیگه ای باشه، ربات ها پیداش نمی کنن و اصلاً به دستورالعمل های شما گوش نمیدن.

تفاوت Robots.txt با Meta Robots و X-Robots-Tag

این سه تا ممکنه شبیه به هم به نظر برسن، اما کاربردهاشون با هم فرق داره و دونستن تفاوت هاشون برای یه سئوی حرفه ای، واقعاً مهمه. robots.txt جلوی خزش (Crawl) رو می گیره، اما Meta Robots و X-Robots-Tag جلوی ایندکس شدن (Index) رو میگیرن. یعنی چی؟

  • robots.txt: این فایل به ربات ها میگه این صفحه رو اصلاً نرو ببین. یعنی ربات حتی محتوای صفحه رو هم بررسی نمی کنه. اما اگه صفحه از طریق لینک های دیگه شناخته بشه، ممکنه توی نتایج جستجو با یه متن کوتاه و بدون توضیحات ظاهر بشه.
  • Meta Robots: این یه تگ HTML هست که توی قسمت <head> صفحات وب قرار می گیره (مثل <meta name=robots content=noindex, follow>). این تگ به ربات هایی که اون صفحه رو می خزن (یعنی قبلاً بهش دسترسی پیدا کردن)، میگه این صفحه رو ببین ولی ایندکس نکن. اگه یه صفحه رو noindex کنید، گوگل محتواش رو نمی ذاره توی نتایج جستجو.
  • X-Robots-Tag: این هم مثل Meta Robots عمل می کنه، با این تفاوت که به جای اینکه تگ HTML باشه، توی هدر HTTP سرور قرار می گیره. کاربردش بیشتر برای فایل هایی مثل PDF، تصاویر یا ویدیوهاست که نمی تونید توشون تگ Meta Robots بذارید. با این روش هم می تونید جلوی ایندکس شدن اون فایل ها رو بگیرید.

برای اینکه بهتر این تفاوت ها رو بفهمید، یه جدول براتون آماده کردم:

ویژگی Robots.txt Meta Robots Tag X-Robots-Tag
نوع فایل متنی در ریشه سایت تگ HTML در <head> صفحه HTTP Header
محدودیت کاربرد جلوی خزش (Crawl) را می گیرد. جلوی ایندکس (Index) را می گیرد. جلوی ایندکس (Index) را می گیرد.
محدوده تاثیر کل سایت، دایرکتوری، فایل صفحه به صفحه برای هر نوع فایل (HTML, PDF, Image, etc.)
زمان اجرا قبل از خزش صفحه پس از خزش صفحه پس از خزش فایل
امکان ظهور در نتایج ممکن است URL نمایش داده شود (بدون توضیحات) URL نمایش داده نمی شود URL نمایش داده نمی شود
کاربرد اصلی مدیریت بودجه خزش، جلوگیری از دسترسی به صفحات بی اهمیت جلوگیری از ایندکس صفحات با محتوای کم ارزش یا تکراری جلوگیری از ایندکس فایل ها یا صفحات خاص

فایل Robots.txt چگونه کار می کند؟ مکانیسم خزش و پیروی ربات ها

خب حالا که فهمیدیم robots.txt چیه و با بقیه فرمان های روباتی چه فرقی داره، بریم ببینیم این فایل دقیقاً چطور کار می کنه و ربات ها چطور ازش پیروی می کنن. این رو در نظر داشته باشید که ربات های گوگل خیلی باهوش تر از این حرفان که هر دستوری رو بی چون و چرا اجرا کنن، اما robots.txt هنوز هم نقش مهمی داره.

فرایند کشف و خواندن فایل Robots.txt توسط ربات های موتور جستجو

وقتی یه ربات از موتور جستجو (مثلاً گوگل بات) می خواد سایت شما رو بررسی کنه، اولین کاری که می کنه اینه که می ره سراغ فایل robots.txt. این ربات ها خیلی منظم هستن و قبل از اینکه شروع به خزش (Crawl) هر صفحه دیگه ای توی سایت شما بکنن، اول میان yourdomain.com/robots.txt رو چک می کنن. اگه این فایل اونجا باشه و ربات بهش دسترسی داشته باشه، دستورالعمل های داخلش رو می خونه و سعی می کنه ازشون پیروی کنه. اگه فایل رو پیدا نکنه یا نتونه بهش دسترسی پیدا کنه (مثلاً خطای 404 یا 500 بده)، فرض رو بر این می ذاره که همه صفحات قابل خزش هستن و شروع می کنه به سرک کشیدن به همه جای سایت.

مفهوم Crawl Budget و نقش Robots.txt در بهینه سازی آن

کلمه Crawl Budget یا بودجه خزش رو زیاد توی سئو می شنویم. این یعنی چی؟ فکر کنید گوگل یه مقدار مشخص از زمان و منابعش رو برای خزش هر سایت در نظر می گیره. این مقدار برای هر سایت فرق می کنه و به اعتبار، اندازه و محبوبیت اون سایت بستگی داره. هر چقدر سایت شما بزرگ تر و معتبرتر باشه، گوگل بودجه خزش بیشتری بهش اختصاص میده.

حالا robots.txt اینجا چیکارست؟ این فایل به شما کمک می کنه تا بودجه خزش رو بهینه کنید. با Disallow کردن (مسدود کردن) صفحات بی اهمیت، تکراری یا خصوصی، به ربات ها میگید که وقت باارزششون رو روی این صفحات هدر ندن و مستقیم برن سراغ محتوای اصلی و مهم شما. اینطوری، گوگل صفحات مهم سایت شما رو سریع تر و کامل تر می خزه و ایندکس می کنه که خودش کلی برای سئو خوبه.

چرا ربات ها گاهی Robots.txt را نادیده می گیرند؟ (نشان دادن صفحات مسدود شده در نتایج)

یه نکته خیلی مهم که خیلیا رو گیج می کنه اینه که گاهی وقتا شما یه صفحه رو توی robots.txt مسدود می کنید (Disallow)، ولی هنوزم اون صفحه توی نتایج جستجوی گوگل نشون داده میشه. خب چرا این اتفاق می افته؟

دلیلش اینه که robots.txt فقط جلوی خزش (Crawl) رو می گیره، نه ایندکس (Index) شدن. اگه صفحه ای که شما Disallow کردید، از طریق لینک های خارجی یا داخلی (حتی توی خود سایت شما) ارجاع داده شده باشه، گوگل ممکنه URL اون صفحه رو بشناسه و حتی بدون اینکه محتواش رو بخزه، اون رو توی نتایج جستجو نشون بده. البته معمولاً این صفحات بدون توضیحات (Description) و فقط با عنوان و URL نمایش داده میشن.

برای جلوگیری از این اتفاق، باید از دستور noindex استفاده کنید. یعنی اگه می خواید صفحه ای به هیچ عنوان توی نتایج جستجو ظاهر نشه، باید از meta robots=noindex یا X-Robots-Tag: noindex استفاده کنید. این نکته خیلی خیلی مهمه! robots.txt جلوی خزش رو می گیره، اما noindex جلوی ایندکس شدن رو.

یادتون باشه: robots.txt به ربات ها میگه اینجا نیا، اما noindex بهشون میگه اگه هم اومدی، اینو توی لیستت نذار!

چرا به فایل Robots.txt نیاز دارید؟ اهداف و کاربردهای کلیدی

حالا که حسابی با robots.txt و سازوکارش آشنا شدیم، بیاید ببینیم اصلاً چرا باید اینقدر بهش اهمیت بدیم و چه کاربردهایی برامون داره. باور کنید، این فایل کوچیک می تونه مثل یه دستیار خفن توی سئوی سایت شما عمل کنه.

کنترل ایندکس شدن: جلوگیری از خزش و ایندکس شدن صفحات کم ارزش یا حساس

شاید توی سایتتون صفحاتی داشته باشید که نمی خواید گوگل اونا رو ببینه و توی نتایج جستجو نشون بده. مثلاً صفحات مدیریتی، صفحات سبد خرید خالی، نتایج جستجوی داخلی سایت، یا حتی صفحاتی که هنوز کامل نشدن و دارن روشون کار می کنید. با robots.txt می تونید جلوی خزش این صفحات رو بگیرید. اینطوری هم از گوگل بات درخواست می کنید که وقتش رو روی این صفحات نذاره و هم جلوی دیده شدن اطلاعات حساس یا بی ارزش رو توی نتایج جستجو می گیرید.

  • مثال: دایرکتوری /wp-admin/ توی وردپرس رو مسدود می کنیم تا گوگل بات واردش نشه.
  • مثال: نتایج جستجوی داخلی سایت که معمولاً محتوای تکراری و بی کیفیت دارن.

مدیریت بودجه خزش (Crawl Budget): هدایت ربات ها به سمت محتوای مهم تر

همونطور که قبلاً گفتیم، گوگل برای هر سایت یه بودجه خزش در نظر می گیره. با مسدود کردن صفحات بی اهمیت، در واقع به گوگل میگید آقا یا خانم ربات، این قسمت ها مهم نیستن، لطفاً تمام توان و وقتتو بذار روی این صفحات محصول یا این مقالات خفن من! اینطوری مطمئن میشید که گوگل صفحات اصلی و مهم شما رو با اولویت بیشتری می خزه و بهشون اهمیت میده.

تعیین مسیر نقشه های سایت (Sitemap): معرفی فایل های XML Sitemap به موتورهای جستجو

نقشه سایت XML یا همون Sitemap.xml، یه فایل خیلی مهمه که تمام URLهای مهم سایت شما رو به گوگل معرفی می کنه. با استفاده از دستور Sitemap توی robots.txt، می تونید آدرس نقشه سایتتون رو به گوگل معرفی کنید. اینطوری گوگل راحت تر می تونه نقشه سایت شما رو پیدا کنه و صفحات جدید یا به روز شده رو سریع تر شناسایی و ایندکس کنه. این کار به خصوص برای سایت های بزرگ با هزاران صفحه، واقعاً ضروریه.

کاهش بار سرور: جلوگیری از خزش غیرضروری و کاهش فشار بر منابع هاست

ربات های موتور جستجو برای خزش صفحات سایت شما، از منابع سرور استفاده می کنن. اگه سایت شما خیلی بزرگه یا تعداد زیادی صفحه بی اهمیت داره که ربات ها دائماً اونا رو می خزن، ممکنه فشار زیادی روی سرور بیاد. با Disallow کردن این صفحات، ترافیک ربات ها به سمت سایتتون رو مدیریت می کنید و فشار روی سرور رو کاهش میدید. این به خصوص برای سایت هایی که هاست ضعیف تری دارن یا درگیر مشکلات سرور هستن، می تونه خیلی مفید باشه.

آشنایی با ساختار و دستورالعمل های اصلی فایل Robots.txt (سینتکس کامل)

فایل robots.txt ساختار خیلی ساده ای داره و از یه سری دستورالعمل (Directive) تشکیل شده. هر دستورالعمل به ربات ها میگه که چه کاری رو انجام بدن یا ندن. بیاین با مهم ترین قسمت ها و دستوراتش آشنا بشیم.

User-agent: تعریف ربات های مورد نظر

هر بلوک دستورالعمل توی فایل robots.txt با User-agent شروع میشه. این دستور مشخص می کنه که دستورالعمل های بعدی برای کدوم ربات (یا ربات ها) اعمال میشه. رایج ترین User-agentها اینا هستن:

  • User-agent: Googlebot: این دستورالعمل ها فقط برای ربات اصلی گوگل (رباتی که صفحات رو می خزه و ایندکس می کنه) اعمال میشه.
  • User-agent: Bingbot: فقط برای ربات موتور جستجوی بینگ.
  • User-agent: *: این یه دستور کلیه و به همه ربات ها (به جز ربات های خاص مثل AdSenseBot) میگه که از دستورالعمل های زیر پیروی کنن. اگه یه ربات خاص مثل Googlebot دستورالعمل خاص خودش رو داشته باشه، اولویت با همون دستورالعمل خاصه.

User-agent: Googlebot
Disallow: /wp-admin/

User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/

توی این مثال، /wp-admin/ فقط برای گوگل بات مسدود شده، اما /cgi-bin/ و /temp/ برای همه ربات ها مسدود شدن.

Disallow: دستور اصلی برای جلوگیری از خزش

این مهم ترین دستور توی robots.txt هست. با استفاده از Disallow می تونید جلوی خزش یک صفحه، یک دایرکتوری، یا حتی کل سایت رو بگیرید. فقط یادتون باشه که بعد از Disallow: باید مسیر رو از ریشه سایت وارد کنید.

  • مسدود کردن کل سایت:
    
    User-agent: *
    Disallow: /
            

    این کد به تمام ربات ها میگه که هیچ صفحه ای از سایت رو نخزن. مراقب باشید، چون با این کار سایتتون از گوگل حذف میشه!

  • مسدود کردن یک دایرکتوری خاص:
    
    User-agent: *
    Disallow: /wp-admin/
            

    این کد جلوی خزش تمام فایل ها و زیرشاخه های داخل دایرکتوری wp-admin رو می گیره.

  • مسدود کردن یک فایل خاص:
    
    User-agent: *
    Disallow: /private-document.pdf
            

    این کد جلوی خزش فایل private-document.pdf رو می گیره.

  • مسدود کردن URLهای شامل پارامتر:
    
    User-agent: *
    Disallow: /*?
            

    این کد جلوی خزش تمام URLهایی که دارای علامت سوال (پارامتر) هستن رو می گیره (مثل example.com/page?id=123).

  • مسدود کردن فایل ها با پسوند خاص:
    
    User-agent: *
    Disallow: /*.zip$
            

    این کد جلوی خزش تمام فایل های ZIP رو می گیره (علامت $ یعنی پایان خط و * یعنی هر چیزی قبل از).

Allow: استثنا قائل شدن برای خزش در یک مسیر مسدود شده

این دستور دقیقاً برعکس Disallow عمل می کنه و به شما اجازه میده تا توی یک دایرکتوری مسدود شده، استثنا قائل بشید و به ربات ها اجازه بدید یک بخش خاص رو بخزن. این دستور معمولاً بعد از Disallow میاد.

  • مثال کاربردی: فرض کنید کل پوشه /assets/ رو Disallow کردید، اما می خواید فقط فایل CSS اصلی توی اون پوشه توسط گوگل بات خزیده بشه تا سایتتون درست رندر بشه.
    
    User-agent: *
    Disallow: /assets/
    Allow: /assets/main.css
            

    توی این حالت، همه چیز توی /assets/ مسدوده به جز main.css.

Sitemap: نحوه معرفی فایل های نقشه سایت (XML Sitemap)

این دستور به موتورهای جستجو میگه که نقشه سایت شما کجاست. این کار بهشون کمک می کنه تا صفحات سایت شما رو بهتر و سریع تر پیدا کنن. معمولاً در انتهای فایل robots.txt قرار می گیره.


User-agent: *
Disallow: /wp-admin/

Sitemap: https://www.yourdomain.com/sitemap.xml
Sitemap: https://www.yourdomain.com/post-sitemap.xml

Crawl-delay: توضیح این دستور و اینکه گوگل آن را پشتیبانی نمی کند

دستور Crawl-delay به ربات ها میگه که بین هر بار خزش یک صفحه، چند ثانیه صبر کنن تا فشار روی سرور کمتر بشه. مثلاً Crawl-delay: 10 یعنی 10 ثانیه صبر کن. اما یه نکته مهم اینه که گوگل این دستور رو رسماً پشتیبانی نمی کنه و بهش توجهی نداره. البته بعضی موتورهای جستجوی دیگه مثل بینگ یا یاهو هنوز هم ازش استفاده می کنن. برای گوگل، بهتره از تنظیمات Crawl rate توی گوگل سرچ کنسول استفاده کنید.

#: استفاده از کامنت ها برای خوانایی بهتر کد

مثل خیلی از زبان های برنامه نویسی، توی robots.txt هم می تونید با گذاشتن علامت # در ابتدای خط، اون خط رو کامنت کنید. کامنت ها توسط ربات ها نادیده گرفته میشن و فقط برای خود شما هستن تا کدهاتون خواناتر باشه و یادتون نره هر خط چی کار می کنه.


# این دستور برای بلاک کردن بخش ادمین سایت هست
User-agent: *
Disallow: /wp-admin/

نکات مهم در مورد حروف بزرگ/کوچک، اسلش و کاراکترهای خاص

  • حروف بزرگ و کوچک: robots.txt به حروف بزرگ و کوچک حساسه. یعنی /Page.html با /page.html فرق می کنه. مسیرها رو دقیقاً همونطور که توی URL سایتتون هست، بنویسید.
  • اسلش انتهایی (Trailing Slash): وجود یا عدم وجود اسلش در انتهای مسیرها مهمه. Disallow: /folder با Disallow: /folder/ فرق داره. اولی فایل folder رو مسدود می کنه و دومی دایرکتوری folder و تمام محتویات داخلش رو.
  • کاراکترهای خاص: * (ستاره) به معنی هر تعداد کاراکتر و $ (دلار) به معنی پایان مسیر هستن که توی مثال ها دیدیم.

گام به گام: چگونه فایل Robots.txt را ایجاد یا ویرایش کنیم؟ (با تمرکز بر عملی بودن)

حالا که با دستورات اصلی آشنا شدیم، وقتشه بریم سر اصل مطلب و یاد بگیریم چطور این فایل رو بسازیم یا ویرایش کنیم. دو روش اصلی برای این کار وجود داره: دستی از طریق هاست یا با استفاده از افزونه ها توی CMSها مثل وردپرس.

نحوه بررسی اینکه آیا سایت شما هم اکنون فایل Robots.txt دارد یا خیر؟

قبل از هر کاری، اول باید مطمئن بشید که اصلاً سایتتون robots.txt داره یا نه. کافیه آدرس سایتتون رو توی مرورگر وارد کنید و در انتها /robots.txt رو اضافه کنید. مثلاً: https://www.yourdomain.com/robots.txt. اگه یه فایل متنی باز شد، یعنی داریدش. اگه خطای 404 (Not Found) داد، یعنی ندارید و باید بسازیدش.

روش اول: دستی از طریق هاست (cPanel / DirectAdmin / FTP)

این روش برای همه سایت ها، چه وردپرس باشن چه هر سیستم دیگه، قابل استفاده ست و بهترین روش برای کنترل دقیق روی فایل هست.

  1. دسترسی به روت هاست:
    • از طریق cPanel یا DirectAdmin: وارد پنل هاستینگتون بشید و روی گزینه File Manager یا مدیریت فایل کلیک کنید. معمولاً باید وارد پوشه public_html یا www بشید که ریشه اصلی سایتتونه.
    • از طریق FTP (مثل FileZilla): با استفاده از نرم افزارهای FTP مثل FileZilla، به هاستتون وصل بشید. بعد از اتصال، شما مستقیماً وارد ریشه هاست می شید. پوشه public_html (یا مشابهش) رو پیدا کنید.
  2. پیدا کردن یا ساخت فایل robots.txt:
    • اگه فایل هست: اگه قبلاً robots.txt وجود داره، روش کلیک راست کنید و گزینه Edit یا ویرایش رو انتخاب کنید.
    • اگه فایل نیست: روی گزینه New File یا ایجاد فایل جدید کلیک کنید و اسم فایل رو دقیقاً robots.txt بنویسید (با حروف کوچک و بدون هیچ پسوند اضافه ای).
  3. نوشتن یا ویرایش محتوا:

    فایل رو باز کنید و دستورالعمل های مورد نظرتون رو توش بنویسید. مثلاً یه فایل robots.txt پایه برای اکثر سایت ها می تونه این باشه:

    
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/*.php
    Disallow: /wp-login.php
    Disallow: /xmlrpc.php
    Disallow: /feed/
    Disallow: /comments/feed/
    Disallow: /trackback/
    
    Allow: /wp-content/uploads/
    Allow: /wp-content/themes/*.css
    Allow: /wp-content/themes/*.js
    
    Sitemap: https://www.yourdomain.com/sitemap_index.xml
            

    این یه نمونه پرکاربرده که بخش های مدیریتی و فایل های سیستمی رو مسدود می کنه، اما به فایل های CSS، JS و تصاویر (که برای رندر سایت ضروری هستن) اجازه خزش میده و نقشه سایت رو هم معرفی می کنه.

  4. ذخیره و آپلود فایل:

    بعد از اینکه تغییرات رو اعمال کردید، حتماً فایل رو Save Changes یا ذخیره تغییرات کنید. اگه از FTP استفاده می کنید، مطمئن بشید که فایل رو به درستی آپلود کردید.

روش دوم: استفاده از افزونه ها در سیستم های مدیریت محتوا (CMS) مانند وردپرس

اگه سایتتون وردپرسیه، کارتون خیلی راحت تره و می تونید از افزونه های سئو استفاده کنید.

  1. معرفی افزونه های محبوب سئو:

    افزونه هایی مثل Yoast SEO و Rank Math امکان ویرایش robots.txt رو داخل پیشخوان وردپرس بهتون میدن.

    • Yoast SEO:

      بعد از نصب و فعال سازی Yoast، از منوی کناری وردپرس به Yoast SEO برید و بعد Tools رو انتخاب کنید. در این قسمت، روی File editor کلیک کنید. اگه فایل robots.txt وجود داشته باشه، می تونید محتواش رو ویرایش کنید. اگه نباشه، Yoast بهتون پیشنهاد میده که یه فایل بسازید.

      File Editor in Yoast SEO

    • Rank Math:

      در افزونه Rank Math، از منوی کناری به Rank Math برید و بعد General Settings رو انتخاب کنید. در این بخش، Edit Robots.txt رو پیدا می کنید که می تونید از اونجا فایل رو ویرایش کنید.

      Edit Robots.txt in Rank Math

  2. نکات مهم:
    • اگه از افزونه استفاده می کنید، نیازی نیست دستی فایل رو توی هاست ویرایش کنید. افزونه خودش این کار رو براتون انجام میده.
    • اگه همزمان هم دستی فایل رو توی هاست ویرایش کنید و هم از افزونه استفاده کنید، ممکنه تداخل پیش بیاد. بهتره فقط از یک روش استفاده کنید.

چه صفحاتی را باید با Robots.txt مسدود کرد؟ (با مثال های واقعی و توصیه های تخصصی)

انتخاب درست صفحاتی که باید مسدود بشن، خیلی مهمه. یادتون باشه که هدف اصلی، جلوگیری از خزش صفحات بی ارزش و تمرکز ربات ها روی محتوای باکیفیت و مهم شماست.

  • صفحات مدیریتی و لاگین (wp-admin, dashboard, cpanel, admin):

    این صفحات نباید توی نتایج جستجو دیده بشن و اصلاً نیازی نیست ربات ها اونا رو بخزن. اگه از وردپرس استفاده می کنید، حتماً /wp-admin/ و /wp-login.php رو مسدود کنید.

    
    Disallow: /wp-admin/
    Disallow: /wp-login.php
            
  • صفحات جستجوی داخلی سایت:

    اگه سایتتون قابلیت جستجوی داخلی داره، نتایج جستجو معمولاً محتوای تکراری و کم ارزشی تولید می کنن که بهتره مسدود بشن تا بودجه خزش هدر نره. معمولاً URL این صفحات شامل ?s= یا /search/ هست.

    
    Disallow: /*?s=*
    Disallow: /search/
            
  • فایل های سیستمی و غیرضروری (مثل فایل های بک آپ، لوگ ها):

    هر فایل یا پوشه ای که مربوط به تنظیمات، بک آپ ها، لاگ ها یا اطلاعات حساس سرور هست و نباید در دسترس عموم قرار بگیره، حتماً باید مسدود بشه.

    
    Disallow: /backup/
    Disallow: /logs/
    Disallow: /.git/
            
  • فایل های CSS، JS و تصاویر (در صورت عدم نیاز به ایندکس، با تاکید بر عدم بلاک کردن فایل های حیاتی برای رندرینگ):

    به طور کلی، فایل های CSS و JavaScript و تصاویر برای رندر شدن صحیح صفحات شما توسط گوگل ضروری هستن و نباید مسدود بشن. گوگل برای ارزیابی تجربه کاربری، نیاز داره که سایت شما رو درست ببینه. مگر در شرایط خاص که مطمئن هستید یه فایل تصویری یا JS خاص (مثلاً برای نمایش یک آگهی غیرضروری) اصلاً نباید ایندکس بشه، اون موقع می تونید مسدودش کنید. اما در ۹۹ درصد موارد، این فایل ها باید قابل خزش باشن.

    
    # اینها را هرگز مسدود نکنید، مگر اینکه کاملا مطمئن باشید!
    # User-agent: *
    # Disallow: /*.css$
    # Disallow: /*.js$
    # Disallow: /*.jpg$
            
  • صفحات تکراری (Duplicate Content) که از طریق canonical یا noindex کنترل نشده اند (با احتیاط):

    اگه صفحاتی دارید که محتوای تکراری دارن (مثلاً نسخه های مختلف یک محصول با پارامترهای URL متفاوت) و به هر دلیلی نتونستید با تگ canonical یا noindex اون ها رو مدیریت کنید، می تونید با احتیاط توی robots.txt مسدودشون کنید. اما تاکید می کنم، canonical و noindex روش های بهتری هستن.

    
    Disallow: /*?color=*&size=*
            
  • صفحات تست، توسعه یا مربوط به staging:

    اگه روی نسخه های آزمایشی سایتتون (مثل dev.yourdomain.com یا yourdomain.com/staging) کار می کنید، حتماً robots.txt اون ها رو طوری تنظیم کنید که از موتورهای جستجو مخفی بمونن. بهترین کار اینه که کلاً اون سایت رو Disallow: / کنید تا از ایندکس شدن ناخواسته محتوای ناقص جلوگیری بشه.

  • صفحات فیلترینگ یا پارامتری:

    در فروشگاه های آنلاین یا سایت هایی که فیلترهای زیادی دارن (مثل فیلتر رنگ، سایز، قیمت)، URLهای زیادی با پارامترهای مختلف ایجاد میشن که اغلب محتوای تکراری تولید می کنن و نیازی به خزش ندارن. می تونید با دستورات پیچیده تر Disallow این صفحات رو مسدود کنید.

    
    Disallow: /*?filter=*
    Disallow: /*?sort=*
            

اشتباهات رایج در تنظیم Robots.txt و نحوه جلوگیری از آن ها

همونطور که گفتیم، robots.txt ابزار قدرتمندیه ولی یه اشتباه کوچیک می تونه فاجعه بار باشه. بیاید با رایج ترین اشتباهات و چگونگی جلوگیری ازشون آشنا بشیم.

  • مسدود کردن کل سایت (Disallow: /):

    این بزرگترین و رایج ترین اشتباهیه که حتی متخصصان سئو هم گاهی ناخواسته انجام میدن. اگه این دستور رو توی robots.txt بذارید، یعنی به تمام ربات ها میگید که کل سایت رو نخزن و نتیجه اش اینه که سایت شما به مرور از نتایج جستجو حذف میشه. همیشه قبل از ذخیره کردن تغییرات، حتماً دستورات رو چند بار چک کنید.

  • مسدود کردن فایل های CSS/JS حیاتی برای رندرینگ:

    یکی از اشتباهات قدیمی و خطرناک، مسدود کردن فایل های CSS و JavaScript اصلی سایت بود. گوگل برای اینکه بفهمه سایت شما چطور به کاربر نشون داده میشه، نیاز داره که این فایل ها رو بخزه و پردازش کنه. اگه این فایل ها بلاک بشن، گوگل سایت شما رو مثل یه صفحه خالی و بدون استایل می بینه و ممکنه رتبه تون رو از دست بدید. همیشه مطمئن بشید که فایل های اصلی CSS و JS قابل خزش هستن.

  • مسدود کردن فایل نقشه سایت (Sitemap):

    شاید خنده دار به نظر بیاد، ولی بعضی وقتا افراد به اشتباه فایل sitemap.xml رو توی robots.txt مسدود می کنن. اگه این فایل مسدود بشه، گوگل نمی تونه نقشه سایت شما رو پیدا کنه و در نتیجه ممکنه نتونه تمام صفحات جدید یا به روز شده شما رو به موقع ایندکس کنه.

    
    # اشتباه! این کار را نکنید:
    # Disallow: /sitemap.xml
            
  • استفاده نادرست از robots.txt به جای noindex (توضیح تفاوت و کاربرد صحیح هر یک):

    قبلاً توضیح دادم، اما باز هم تاکید می کنم: robots.txt فقط جلوی خزش رو می گیره، نه ایندکس شدن. اگه می خواید یک صفحه اصلاً توی نتایج جستجو ظاهر نشه، باید از meta robots=noindex یا X-Robots-Tag: noindex استفاده کنید. robots.txt به تنهایی این تضمین رو نمیده. استفاده از robots.txt برای مخفی کردن صفحات از نتایج جستجو، یه اشتباه رایجه.

  • فراموشی به روزرسانی robots.txt پس از تغییرات مهم در ساختار سایت:

    وقتی ساختار URL سایتتون رو تغییر میدید، دایرکتوری ها رو جابجا می کنید یا صفحات جدید و مهمی اضافه می کنید، حتماً robots.txt رو هم به روز کنید. اگه یک صفحه مهم رو جابجا کنید و مسیر جدیدش رو به اشتباه Disallow کنید، یا یک بخش جدید رو اضافه کنید و یادتون بره بهش اجازه خزش بدید، می تونه کلی مشکل سئویی درست کنه.

  • خطاهای نوشتاری و سینتکسی:

    یه اسپیس اضافی، یه اسلش جا افتاده یا یه حرف بزرگ/کوچیک اشتباه، می تونه کل دستور رو بی اثر کنه یا بدتر، باعث بشه ربات ها مسیرهای اشتباهی رو مسدود کنن. robots.txt به سینتکسش خیلی حساسه. همیشه از ابزارهای تست برای بررسی فایل استفاده کنید.

چگونه فایل Robots.txt خود را تست و اعتبارسنجی کنیم؟

بعد از اینکه فایل robots.txt رو ساختید یا ویرایش کردید، مهم ترین کار اینه که از صحت عملکردش مطمئن بشید. خوشبختانه گوگل ابزارهای خوبی برای این کار در اختیارمون گذاشته.

ابزار Robots.txt Tester در Google Search Console: راهنمای کامل استفاده

ابزار Robots.txt Tester توی گوگل سرچ کنسول، بهترین راه برای بررسی فایل robots.txt شماست. با این ابزار می تونید ببینید گوگل بات چطور دستورات شما رو تفسیر می کنه و آیا URL خاصی که مد نظرتونه، مسدود شده یا نه.

  1. ورود به Google Search Console:

    وارد حساب کاربری گوگل سرچ کنسول خودتون بشید. اگه هنوز سایتتون رو توی سرچ کنسول ثبت نکردید، حتماً این کار رو بکنید.

  2. دسترسی به ابزار:

    از منوی سمت چپ، به قسمت Legacy tools and reports برید و بعد روی Robots.txt Tester کلیک کنید.

  3. مشاهده فایل فعلی:

    در بالای صفحه، فایل robots.txt فعلی سایت شما نمایش داده میشه. اگه خطایی در فایل باشه، با رنگ قرمز مشخص میشه.

  4. تست URLهای خاص:

    در پایین صفحه، یه کادر برای وارد کردن URL وجود داره. می تونید URL صفحه ای رو که می خواید تست کنید (مثلاً یه صفحه مدیریتی که می خواید مطمئن بشید مسدوده)، وارد کنید. بعد روی دکمه Test کلیک کنید.

    Robots.txt Tester in Google Search Console

  5. بررسی نتیجه:

    ابزار به شما میگه که آیا URL مورد نظر برای گوگل بات (یا هر User-agent دیگه ای که انتخاب کنید) Allowed (اجازه خزش دارد) یا Disallowed (مسدود شده است). اگه Disallowed بود، دلیل مسدود شدن رو هم نشون میده که مربوط به کدوم خط از robots.txt هست.

  6. اعمال تغییرات و Submit کردن:

    اگه تغییراتی توی robots.txt توی هاستتون ایجاد کردید، می تونید اونا رو توی این ابزار کپی و پیست کنید و تست کنید. بعد از مطمئن شدن، می تونید از طریق همین ابزار، نسخه جدید رو به گوگل سابمیت کنید تا سریع تر به روز بشه (البته گوگل هر 24 ساعت یک بار خودش این فایل رو چک می کنه).

ابزارهای آنلاین دیگر برای اعتبارسنجی robots.txt

علاوه بر سرچ کنسول، سایت های زیادی هستن که ابزارهای آنلاین برای تست robots.txt ارائه میدن. فقط کافیه online robots.txt tester رو سرچ کنید. این ابزارها هم می تونن برای بررسی سریع فایل شما مفید باشن.

نظارت بر گزارش Crawl Stats در Google Search Console برای بررسی تاثیر robots.txt

توی سرچ کنسول، قسمتی به نام Crawl Stats یا آمار خزش وجود داره. این گزارش بهتون نشون میده که گوگل بات چقدر سایت شما رو می خزه، چند تا صفحه رو در روز بررسی می کنه و چه خطاهایی در حین خزش پیش میاد. با بررسی منظم این گزارش، می تونید تاثیر تغییراتی که توی robots.txt ایجاد کردید رو ببینید و مطمئن بشید که بودجه خزش به بهترین شکل داره مدیریت میشه.

بهترین روش ها و نکات پیشرفته برای مدیریت Robots.txt

برای اینکه robots.txt شما همیشه بهترین عملکرد رو داشته باشه و به سئوتون کمک کنه، چند تا نکته حرفه ای و بهترین روش رو باید رعایت کنید.

نگهداری فایل robots.txt مختصر و بهینه

فایل robots.txt رو شلوغ و پر از دستورات غیرضروری نکنید. فقط دستورات ضروری رو توش نگه دارید. هر چقدر فایل ساده تر و خواناتر باشه، احتمال خطا کمتر میشه و مدیریتشم راحت تره.

اولویت بندی دستورات در فایل

وقتی یک ربات چندین دستورالعمل رو برای یک مسیر پیدا می کنه، معمولاً از طولانی ترین و خاص ترین دستورالعمل پیروی می کنه. یعنی اگه یک Disallow کلی و یک Allow جزئی برای یک مسیر داشته باشید، Allow اولویت پیدا می کنه. مثلاً:


User-agent: *
Disallow: /folder/
Allow: /folder/subfolder/

توی این مثال، کل /folder/ مسدوده، اما /folder/subfolder/ قابل خزشه.

نکات امنیتی (جلوگیری از افشای اطلاعات حساس از طریق robots.txt)

مراقب باشید که robots.txt رو به عنوان یک ابزار امنیتی نبینید! چون این فایل عمومی و قابل دسترسه، هر کسی می تونه اون رو بخونه. اگه توی robots.txt مسیر فایل های حساس یا خصوصی رو مسدود کنید، در واقع دارید به هکرها و افراد کنجکاو میگید که آقا یا خانم، اطلاعات مهم ما اینجاست، ولی لطفاً دست نزنید! این کار مثل اینه که یه تابلوی بزرگ بذارید و آدرس گنج رو بنویسید! برای محافظت از اطلاعات حساس، از روش های واقعی امنیتی مثل پسوردگذاری، محدود کردن دسترسی با .htaccess و … استفاده کنید، نه robots.txt.

مدیریت robots.txt برای ساب دامین ها و سایت های چندزبانه/چنددامنه ای

اگه سایتتون ساب دامین های جداگانه داره (مثل blog.yourdomain.com یا shop.yourdomain.com)، هر ساب دامین باید robots.txt مخصوص به خودش رو داشته باشه که توی ریشه اون ساب دامین قرار می گیره. برای سایت های چندزبانه یا چنددامنه ای هم که هر زبان یا دامنه یه دایرکتوری یا دامنه جدا داره، باید مطمئن بشید که robots.txt درست برای هر کدوم تنظیم شده.

بررسی دوره ای فایل robots.txt و به روزرسانی آن

robots.txt یه فایلی نیست که یک بار تنظیمش کنید و تا ابد فراموشش کنید. هر وقت تغییرات مهمی توی ساختار سایتتون ایجاد می کنید، صفحات جدیدی اضافه یا حذف می کنید، یا استراتژی سئوتون عوض میشه، حتماً robots.txt رو هم بررسی و در صورت نیاز به روزرسانی کنید. یه چک آپ منظم، جلوی خیلی از مشکلات رو می گیره.

نتیجه گیری: خلاصه ای از نکات کلیدی و فراخوان به اقدام

دیدیم که فایل robots.txt با تمام سادگیش، یه ابزار فوق العاده مهم و حیاتی برای سئوی سایت شماست. با تنظیم درست و دقیق این فایل، می تونید به موتورهای جستجو نشون بدید که کدوم قسمت های سایتتون رو باید بیشتر دوست داشته باشن و روی کدوم ها وقت نذارن. این کار باعث میشه بودجه خزش سایتتون به بهترین شکل مصرف بشه و محتوای باارزشتون سریع تر و بهتر ایندکس بشه.

یادتون باشه که robots.txt فقط یه راهنما برای ربات هاست و جلوی ایندکس شدن کامل رو نمی گیره. برای کنترل ایندکس، حتماً باید از تگ های noindex استفاده کنید. همچنین، توی تنظیماتتون خیلی دقت کنید و هرگز فایل های مهم مثل CSS و JS رو مسدود نکنید تا رندر سایتتون دچار مشکل نشه.

پس حالا که همه چی رو یاد گرفتید، پیشنهاد می کنم همین الان برید سراغ سایت خودتون، فایل robots.txt رو چک کنید و اگه لازم بود، با دقت و وسواس تمام، اون رو بهینه سازی کنید. مطمئن باشید این کار کوچیک، تاثیر بزرگی روی سئوی سایت شما خواهد داشت.

آیا شما به دنبال کسب اطلاعات بیشتر در مورد "تنظیمات فایل Robots.txt – راهنمای کامل بهینه سازی سئو" هستید؟ با کلیک بر روی عمومی، ممکن است در این موضوع، مطالب مرتبط دیگری هم وجود داشته باشد. برای کشف آن ها، به دنبال دسته بندی های مرتبط بگردید. همچنین، ممکن است در این دسته بندی، سریال ها، فیلم ها، کتاب ها و مقالات مفیدی نیز برای شما قرار داشته باشند. بنابراین، همین حالا برای کشف دنیای جذاب و گسترده ی محتواهای مرتبط با "تنظیمات فایل Robots.txt – راهنمای کامل بهینه سازی سئو"، کلیک کنید.

نوشته های مشابه