گزارش Pages سرچ کنسول

در گزارش Pages اطلاعاتی در مورد ایندکس صفحات در اختیار شما قرار می گیرد. با توجه به تصویر زیر، با کلیک بر روی عبارت All known pages که با شماره 1 نمایش داده شده، می توانید انتخاب کنید که گزارش Pages در مورد همه صفحات شناخته شده توسط گوگل باشد و یا در صورت داشتن نقشه سایت، فقط در مورد Sitemap خاصی این گزارش ارائه شود.

گزارش Index coverage

با توجه به تصویر بالا، گزارش Coverage شامل 4 بخش Error و Valid with warning و Valid و Excluded است. با کلیک بر روی هر آیتم، نمودار مربوطه ترسیم خواهد شد و در زیر نمودار نیز جزئیات بیشتری در مورد هر آیتم به صورت لیست نمایش داده می شود. در ادامه در مورد هر یک از 4 بخش و جزئیاتی که می توانند هر کدام از آنها داشته باشند، توضیح داده شده است:

1- Error:

در این بخش، صفحاتی که دارای ایراد هستند نمایش داده می شوند. این صفحات به دلیل ایراد اساسی، توسط گوگل ایندکس نشده اند. دلایل زیر می توانند باعث قرار گرفتن صفحه در لیست Error شوند:

• Server error 5xx: همان طور که در فصل مفاهیم در مورد HTTP Response Code توضیح داده شد، Response Code خانواده 500 به معنای ارورهای سمت سرور هستند. بنابراین گزارش ارورهای 5XX در این قسمت قابل رویت هستند. به عنوان نمونه هنگامی که سرور در پاسخ request برای یک صفحه، ارور 5xx مانند 500 یا 503 برگرداند.

• Redirect error: ارورهای مربوط به ریدایرکت وجود داشته باشند. به عنوان مثال، گوگل بات در هنگام درخواست برای یک صفحه با لوپ ریدایرکت مواجه شود و یا با تعداد زیادی ریدایرکت (chain redirect) مواجه شود. توجه داشته باشید که گوگل بات بیش از 5 ریدایرکت پشت سر هم را دنبال نمی کند. یکی دیگر از نمونه های ارور ریدایرکت این است که یک آدرس به آدرسی ریدایرکت شود که تعداد کاراکترهای URL آن از حد مجاز 2048 کاراکتر بیشتر است.

• Submitted URL blocked by robots.txt: آدرسی که از روشی مانند نقشه سایت، به گوگل معرفی شده ولی توسط robots.txt بر روی گوگل بات بلاک شده است.

• Submitted URL marked noindex: آدرس هایی که از روشی مانند نقشه سایت، به گوگل معرفی شده اند ولی توسط meta یا http header به صورت noindex باشند و در نتیجه گوگل آنها را ایندکس نخواهد کرد.

• Submitted URL seems to be a Soft 404: آدرس های URL که از روشی مانند نقشه سایت، به گوگل معرفی شده اند ولی به جای برگرداندن http response با کد 404، http response با کد 200 برمی گردانند و یا به جای برگرداندن رسپانس 404، کاربر را به یک آدرس دیگر ریدایرکت کنند.

وقتی صفحه ای وجود ندارد، وب سرور باید ارور 404 را به درخواست کننده بدهد که هم موتور جستجو و هم مرورگرها متوجه شوند که صفحه و یا فایل مورد نظرشان وجود ندارد. ولی وقتی به جای ارور 404، درخواست کننده به صفحه دیگری مانند homepage ریدایرکت شود، گوگل بات آن را به عنوان Soft 404 در نظر می گیرد. این گونه ارورها باید زودتر برطرف شوند.

• Submitted URL returns unauthorized request 401: آدرس هایی که از روشی مانند نقشه سایت، به گوگل معرفی شده اند ولی گوگل بات اجازه دسترسی به آنها را به دلایلی مانند وجود پسورد برای دسترسی، نداشته است. اگر قصد دارید صفحات مذکور توسط گوگل بات خوانده و ایندکس شوند، یا authorization را از روی آنها بردارید و یا تمهیداتی بیندیشید که گوگل بات بتواند بدون نیاز به authorization به آن صفحات دسترسی داشته باشد.
• Submitted URL not found 404: آدرس هایی که از روشی مانند نقشه سایت، به گوگل معرفی شده اند ولی http response با کد 404 بر می گردانند.

• Submitted URL has crawl issue: آدرس هایی که از روشی مانند نقشه سایت، به گوگل معرفی شده اند ولی گوگل بات به دلایلی به جز دلایلی که در بالا در مورد آنها صحبت شد، در هنگام کراول آنها با ارور مواجه شده است. برای بررسی ایراد این گونه صفحات از ابزار URL inspection استفاده کنید.

وقتی روی هر کدام از ارور ها کلیک می کنید، تصویری مانند تصویر زیر را خواهید دید:

Validate fix in Search Console

اگر ارور مربوطه را در سایت برطرف کرده اید، روی دکمه VALIDATE FIX کلیک کنید. پس از آن، سرچ کنسول تعدادی از صفحات که ارور مربوطه را داشتند در چند ثانیه به عنوان نمونه چک می کند و اگر همه آن چند صفحه ای که به عنوان نمونه انتخاب شده بودند، بدون ایراد باشند، همه آدرس هایی که ارور مربوطه آنها قبلا شناسایی شده بود را در نوبت بررسی قرار می دهد که این بررسی ممکن است چندین روز به طول بینجامد. ولی اگر یکی از چند نمونه تست اولیه با ارور مواجه شد، پروسه VALIDATION متوقف می شود.

2- Valid with warning:

صفحاتی که دارای warning یا اخطار هستند، ممکن است توسط گوگل ایندکس نشوند. یکی از دلایل رایج اخطار، مورد زیر است:

• Indexed, though blocked by robots.txt: آدرس هایی که توسط robots.txt بلاک شده اند ولی گوگل بات از طریق لینک خارجی به آنها رسیده باشد. هنگامی که گوگل بات از طریق یک لینک خارجی به یک آدرس می رسد، فایل robots.txt را نادیده می گیرد. بنابراین اگر قصد دارید که آدرس یا آدرس های مد نظر شما توسط گوگل ایندکس نشوند، استفاده از robots.txt به تنهایی، راه حل 100 درصد نیست. برای جلوگیری از ایندکس توصیه می کنیم از راه حلی مانند متا تگ noindex استفاده کنید.

• Page indexed without content: این صفحات توسط گوگل ایندکس شده اند ولی بنا به دلایلی گوگل نتوانسته است محتوای آنها را بخواند. یکی از علت های رایج که منجر به این اخطار می شود، Cloaking است و دلیل دیگر ممکن این است این باشد که فرمت محتوا به گونه ای باشد که گوگل نتواند آن را بخواند. توجه داشته باشید که اخطار Page indexed without content ارتباطی به بلاک شدن صفحه یا منابع توسط فایل robots.txt ندارد. برای بررسی صفحه ای که با اخطار مذکور مواجه شده، از ابزار URL inspection گوگل سرچ کنسول استفاده کنید.

3- Valid:

صفحاتی که بدون هیچ ایرادی توسط گوگل ایندکس شده اند در لیست Valid قرار می گیرند. این گونه آدرس ها به سه دسته زیر تقسیم می شوند:

• Submitted and indexed: آدرس هایی که از روشی مانند نقشه سایت (sitemap) در سرچ کنسول submit شده اند و گوگل آنها را ایندکس کرده است.

• Indexed, not submitted in sitemap: آدرس هایی که توسط نقشه سایت به گوگل معرفی نشدند ولی گوگل بات آنها را یافته و ایندکس کرده است. توصیه می کنیم که همه آدرس های قابل ایندکس شدن را توسط نقشه سایت به گوگل معرفی کنید.

• Indexed; consider marking as canonical: آدرس های URL که ایندکس شده اند و با وجود اینکه تعدادی آدرس داپلیکیت دارند، گوگل تصمیم گرفته که آن URL ها را به عنوان آدرس Canonical در نظر بگیرد.

4- Excluded:

صفحاتی که توسط گوگل ایندکس نشده اند در این لیست قرار می گیرند. دلایلی مانند داپلیکیت بودن صفحه با صفحه دیگری که در ایندکس گوگل وجود دارد، صفحاتی که توسط هر مکانیزمی بر روی گوگل بات بلاک شده باشد و هر صفحه دیگری که گوگل به هر دلیلی به جز Error تصمیم بر ایندکس نکردن آنها گرفته است، می توانند باعث قرار گرفتن صفحات در لیست Excluded شوند. در ادامه به توضیح تک تک موارد پرداخته شده است:

• Excluded by ‘noindex’ tag: آدرس هایی که به دلیل وجود تگ noindex توسط گوگل ایندکس نشدند. اگر شما به تصمیم خودتان برای برخی صفحاتی که در این لیست قرار گرفته اند، تگ noindex قرار داده اید، نیازی نیست با دیدن این گزارش، کاری انجام دهید. در غیر اینصورت، نسبت به برداشتن تگ noindex اقدام کنید.

• Blocked by page removal tool: آدرس هایی که توسط URL removal tool گوگل به مدت محدود از ایندکس خارج شده اند.

• Blocked by robots.txt: آدرس هایی که توسط robots.txt بر روی گوگل بات بلاک شده اند و گوگل نیز تصمیم به عدم ایندکس آنها گرفته است.

• Blocked due to unauthorized request 401: صفحاتی که گوگل بات در پاسخ ارسال درخواست به سرور برای خواندن آنها، http response با کد 401 که به معنی authorization است دریافت کرده است. (صفحاتی که برای دسترسی به آنها نیاز به نام کاربری و کلمه عبور دارند در این دسته قرار می گیرند.)

• Crawl anomaly: هنگامی که یک ایراد نامشخص در لحظه خواندن صفحه بوجود آمده باشد. ارورهای 4xx یا 5xx می توانند باعث شوند برخی از صفحات در این لیست قرار بگیرند. جهت بررسی صفحاتی که در این لیست قرار دارند از ابزار URL inspection استفاده کنید.

• Crawled – currently not indexed: صفحاتی که توسط گوگل بات کراول شده اند ولی ایندکس نشده اند. مشخص نیست که صفحاتی که در این لیست قرار دارند، در آینده ایندکس شوند.

• Discovered – currently not indexed: آدرس هایی که توسط گوگل بات شناسایی شده اند ولی هنوز کراول نشده اند. معمولا دلیل کراول نشدن آدرس هایی که در این لیست قرار دارند، overloaded بودن سرور در لحظه ای بوده که گوگل بات قصد کراول آن آدرس ها را داشته است. بنابراین گوگل بات در زمان دیگری مجدد برای کراول مذکور باز خواهد گشت.

• Alternate page with proper canonical tag: صفحاتی که دارای صفحه داپلیکیت با آدرس Canonical دیگری هستند و گوگل آن صفحات Canonical را ایندکس کرده است. در این مورد نیازی به انجام کاری از جانب شما نیست.

• Duplicate without user-selected canonical: صفحاتی که دارای صفحه داپلیکیت هستند و آدرس Canonical نیز برای آنها تعریف نشده است. بنابراین گوگل صفحه دیگر را به عنوان صفحه اصلی یا Canonical در نظر گرفته و آن را ایندکس کرده است. صفحاتی که در این لیست قرار دارند، در واقع توسط گوگل به عنوان صفحه Canonical در نظر گرفته نشده اند.

• Duplicate non-HTML page: صفحات غیر HTML (مانند PDF) که داپلیکیت صفحه دیگری هستند که توسط گوگل به عنوان Canonical در نظر گرفته شده است.

• Duplicate, Google chose different canonical than user: صفحاتی که شما آنها را به عنوان Canonical معرفی کرده اید ولی گوگل بات تصمیم بر انتخاب صفحه دیگری به عنوان Canonical گرفته و آن را ایندکس کرده است.

• Not found 404: آدرس هایی که گوگل در پاسخ درخواست به سرور با 404 http response مواجه شده است. دلایلی مانند لینک خارجی شکسته، حذف یک صفحه از سایت و لینک داخلی شکسته می توانند باعث قرار گرفتن صفحات در این لیست شوند. دقت داشته باشید که در صورتیکه آدرس یک صفحه در سایت شما تغییر کرده است، آدرس قدیمی را به آدرس جدید ریدایرکت 301 کنید که هم کاربران و هم گوگل بات متوجه تغییر آدرس شوند و با ارور 404 مواجه نشوند.

در صورتیکه ارورهای 404 در این لیست به عنوان نمونه به دلیل لینک های خارجی اشتباه به سایت شما است، جای نگرانی نیست و نیازی به انجام کاری نیست. به طور کلی هنگامی که گوگل بات با ارور 404 مواجه می شود، هر بار با تاخیر بیشتری آن آدرس را چک می کند و در نهایت اگر لینک خارجی اشتباهی وجود نداشته باشد، آن آدرس ها را از ایندکس خود خارج می کند. ولی اگر لینک خارجی یا داخلی به آدرس های اشتباه در سایت وجود داشته باشد، ارور 404 مربوطه برای همیشه در سرچ کنسول نمایش داده می شود. اگر برایتان امکانپذیر بود، با سایت یا سایت هایی که به شما لینک شکسته داده اند مذاکره کنید تا آن لینک ها را اصلاح یا حذف کنند.

وجود ارور 404 در سرچ کنسول الزاما به معنای ایراد در سایت و یا افت رنکینگ سایت نیست. در نمونه قبل شاهد بودید که ارورها منشا خارجی داشتند و ایرادی در سایت وجود نداشت، بنابراین این گونه ارورهای 404 تاثیری در محاسبه رنکینگ سایت ندارند.

• Page removed because of legal complaint: صفحاتی که به علت شکایت قانونی از ایندکس گوگل حذف شدند. به عنوان نمونه، صفحاتی که به دلیل نقض کپی رایت و شکایت مالک کپی رایت به گوگل DMCA، از ایندکس گوگل حذف شده اند.

• Page with redirect: صفحه ای که به یک صفحه دیگر ریدایرکت شده باشد، در این لیست قرار می گیرد. به عبارت دیگر، وقتی شما آدرس یک صفحه را تغییر می دهید و آدرس قدیمی را به آدرس جدیدش ریدایرکت می کنید، گوگل آدرس قدیمی را به مرور از ایندکسش خارج می کند و آنها را در لیست Page with redirect قرار می دهد.

• Queued for crawling: آدرس هایی که در نوبت کراول قرار گرفته اند در این لیست نمایش داده می شوند. بنابراین، این لیست، یک لیست موقت است و پس از اینکه صفحاتی که در آن قرار دارند، کراول شدند، از لیست حذف خواهند گردید.

• Soft 404: آدرس هایی که گوگل بات در پاسخ درخواستش به سرور باید 404 http response دریافت می کرده ولی به دلیلی مانند ریدایرکت آدرس های 404 یه یک صفحه دیگر مانند homepage، ارور 404 را به گوگل بات برنگردانده باشد، در این لیست قرار می گیرند.

• Submitted URL dropped: صفحاتی که آدرس آنها را به روشی مانند نقشه سایت به سرچ کنسول معرفی کرده اید ولی به دلیل نامشخص از لیست ایندکس خارج شده اند.

• Duplicate, submitted URL not selected as canonical: در صورتیکه صفحه ای دارای تعدادی صفحه داپلیکیت باشد و شما آدرس Canonical برای آنها تعریف نکرده باشید و شما آدرس یکی از آن صفحات داپلیکیت را برای ایندکس شدن به گوگل معرفی کرده باشید ولی گوگل آدرس دیگری را به عنوان Canonical در نظر بگیرد و آن را ایندکس کند، آدرس صفحه ایندکس نشده در این لیست قرار می گیرد. دقت داشته باشید که تفاوت این دسته از صفحات با “Google chose different canonical than user” این است که در اینجا شما درخواست ایندکس صفحه را به گوگل داده اید.

یکی از کارهایی که هر سئوکار باید انجام دهد، بررسی کردن جدیدترین ارورها و در صورت امکان پذیر بودن، برطرف کردن آنان است.

🔗 منبع: Google Search Console Help

7 دیدگاه

  1. سلام
    خسته نباشید
    یه سوال داشتم و اونم اینه که لینک هایی از سایت بنده در بخش Exclude قرار گرفتن و بنده مشکلشون رو حل کردم
    هیچ دکمه ای هم مبنی بر Fix و … وجود نداره که بنده به گوگل اطلاع بدم. آیا خود گوگل این لینک ها بعدا مورد بررسی قرار میده و مشکلشون رو حل میکنه؟

    • سلام و وقت بخیر
      اگر برخی از آدرسهای سایت شما به دلیل ایراد یا ایرادهایی، Exclude شده بودند و از ایندکس خارج شده اند و حالا مشکل برطرف شده است، می توانید با استفاده از URL inspection تک تک آدرسها را به صورت دستی Submit کنید. عجله ای نداشته باشید، در صورتی که last-modified صفحاتی که ادیت کرده اید، در Sitemap که در سرچ کنسول سابمیت کرده اید، آپدیت شده باشد، گوگل به تدریج صفحات مذکور را Crawl خواهد کرد. اگر هم تعداد صفحاتی که فرمودید کم است، استفاده از URL inspection سریع تر است.

  2. سلام و عرض ادب
    استاد Coverage مربوط به یکی از چهار آدرس سایت بنده یعنی نسخه http تعداد پیج های valid در اون داره به صفر میرسه؟ این مشکلی نداره؟
    اسکرین شات را هم برای شما ارسال کردم.
    خیلی خیلی متشکرم

    • سلام و روز بخیر،
      سایت شما https با www است. در نتیجه اگر ورژن های دیگر مانند http با www یا بدون www، در گوگل ایندکس نشده باشند یا قبلا به هر دلیلی ایندکس شده باشند و الان در حال deindex شدن باشند و فقط ورژن https دارای ایندکس عادی باشد، منطقی است و مشکلی نیست.
      موفق باشید

  3. سلام خدمت آقای مهندس جعفری، من میخواهم در robots یه دستوری بنویسم که url هایی که از ویژگی های محصولات تولید میشه رو index نکنه.
    به طور مثال یه محصول دارای ویژگی های رنگ و سایز هست، من میخوام که این رنگ و سایز رو گوگل نخونه و ایندکس نکنه.
    ممنون منو راهنمایی کنید.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *