یک ربات گوگل چیست و چه کاری می کند؟

  • ربات گوگل در واقع یک خزنده وب است که شرکت گوگل از آن استفاده می کند.
  • گوگل از این نوع ربات ها برای پیدا کردن و دریافت صفحات وب استفاده می کند.
  • اطلاعاتی که به وسیله ربات های گوگل به دست می آید در نهایت برای بروز رسانی ایندکس های انجام شده به وسیله گوگل استفاده می شود.
  • ربات های گوگل به صورت مستمر میلیاردها صفحه وب را تا کنون مشاهده کرده اند و همیشه نیز درحال انجام این کار می باشند.

یک خزنده وب چیست؟

خزنده وب که به آنها اغلب ربات یا عنکبوت نیز گفته می شوند نوعی از نرم افزارها هستند که برای دنبال کردن لینک ها طراحی شده اند. آنها به دنبال این لینک ها رفته ، اطلاعات لازم را به دست آورده و این اطلاعات را در نهایت به جایی ارسال می کنند. اما کاری که این ربات ها انجام می دهند به این صورت است که :

  • آنها محتوای صفحات (کلمات ، کدها ، منابع و ... ) را از سایت های مختلف به دست می آورند.
  • اگر این محتواها لینک هایی به دیگر جاها داشته باشند آنگاه این مکان ها در جایی یادداشت خواهد شد.
  • سپس این اطلاعات را به مرکز داده گوگل ارسال می کنند.

ربات گوگل و سایت شما

اطلاعاتی که توسط ربات های گوگل از وب سایت شما به کامپیوترهای گوگل ارسال می شود ، صفحات ایندکس شده گوگل را نیز به روز رسانی خواهد کرد. باید بدانید که ایندکس گوگل یا همان نشانه گذاری گوگل جایی است که صفحات وب مقایسه شده و رتبه بندی می شوند. و برای اینکه شما بتوانید صفحات خود را در نتایج جستجوی گوگل مشاهده کنید می بایست این صفحات توسط ربات های گوگل قابل دید باشند. یعنی اینکه این ربات ها توانسته باشند قبل از این صفحات شما را دیده باشند. و سپس برای اینکه این صفحات شما بتواند در گوگل دارای رتبه شود ، این ربات ها باید بتوانند به تمام منابع شما دسترسی داشته باشند.

تفاوت بین ربات گوگل و ایندکس گوگل

ربات گوگل یا Googlebot

  • ربات گوگل مسئول جمع آوری محتوا از سراسر وب می باشد.
  • ربات های گوگل هرگز قضاوتی در مورد محتواهای به دست آمده نخواهند داشت و فقط مسئولیت جمع آوری آنها را دارند.
  • تنها ذهنیتی که این ربات ها دارند این است که : آیا می توانم به این محتوا دسترسی داشته باشم؟ و اینکه آیا محتوای دیگری نیز هست که من بتوانم به آن نیز دسترسی داشته باشم؟

نشانه گذاری گوگل یا Google Index

  • نشانه گذاری گوگل ، محتواهایی که از ربات های گوگل دریافت کرده است را برای رتبه بندی صفحات استفاده می کند. اولین گام برای اینکه شما بتوانید در گوگل رتبه داشته باشید این است که توسط ربات های آن مشاهده شده باشید.

اطمینان پیدا کنید که صفحات شما توسط ربات های گوگل دیده می شود

از آنجایی که ربات های گوگل تنها راهی است که گوگل می تواند ایندکس های خود را بروز رسانی نماید، این کاملا ضروری است که این ربات ها بتوانند صفحات سایت شما را مشاهده نمایند.

بنیادی ترین سوالاتی که یک وب مستر گوگل باید از خود داشته باشد این است که :

  1. آیا ربات های گوگل می توانند صفحات وب مرا مشاهده نمایند؟
  2. آیا ربات های گوگل می توانند به تمامی محتوا و لینک های سایت من دسترسی داشته باشند؟
  3. آیا ربات های گوگل می توانند به تمامی منابع صفحات من دسترسی داشته باشند؟

اجازه دهید تا نگاه دقیق تری به هر کدام از این سوالات داشته باشیم:

  1. برای اینکه شما بتوانید تشخیص دهید که آیا ربات های گوگل می توانند سایت شما را مشاهده نمایند یا خیر کافیست این عبارت را در مرورگر خود جستجو کنید. Site:yourwebsite.com . شما با قراردادن site: در ابتدای نام سایت خود از گوگل خواسته اید تا تمامی صفحات ایندکس شده توسط خود را به شما نشان دهد.

نکته : توجه داشته باشید که نباید هیچ فاصله ای بین نام دامنه شما و کلمه سایت وجود داشته باشد. به طور مثال من می توانم این گونه جستجو انجام دهم: site:liositesaz.com. و اگر شما تعداد صفحات ایندکس شده خود را در این نتایج کمتر از تعداد صفحات سایت خود مشاهده کردید آن وقت باید بدانید که تعدادی از صفحات سایت شما هنوز ایندکس نشده است. همچنین شما باید مطمئن باشید که از طریق فایل robots.txt جلوی کار ربات های گوگل را نگرفته باشید. این فایل را در ادامه مقاله بیشتر توضیح خواهیم داد.

  1. گام بعدی این است که شما اطمینان پیدا کنید گوگل می تواند محتواهای شما را به همراه لینک های آن مشاهده کند. صرفا به این خاطر که ربات گوگل می تواند صفحه شما را مشاهده کند شما نباید فکر کنید که می تواند هرچیزی که در صفحات شما می باشد را نیز مشاهده کند. شما باید به این نکته توجه داشته باشید که ربات های گوگل نمی توانند صفحات سایت شما را همان گونه که انسان می بیند ، ببینند. به طور مثال شما در صفحه وب می توانید عکس ها را مشاهده کنید اما چیزی که گوگل می بیند تنها یک خط کد است که یک عکس را فرا خوانی می کند.

این ربات های گوگل می توانند به کدهای HTML ای که شما نوشته اید دسترسی داشته باشند اما باید بدانید که نمی توانند درک شهودی از عکس هایی که شما در صفحات خود استفاده کرده اید داشته باشند. و در این حالت چونکه گوگل نمی تواند درک کاملی از صفحه سایت شما داشته باشد در واقع ایندکس درستی از سایت شما نیز در نهایت انجام نخواهد شد.

همچنین گوگل نمی تواند یک شمای کلی از سایت شما ببیند بلکه می تواند آن را فقط به صورت بخش هایی مشاهده نماید. و اگر هر کدام از این بخش ها توسط گوگل دیده نشود در واقع آن بخش برای ایندکس شدن به کامپیوترهای گوگل ارسال نخواهد شد. و اینکه تنها عکس ها نیستند که ممکن است از دید گوگل خارج شوند. موارد دیگری نیز وجود دارند که عبارتند از :

  • منابع بلاک شده از طریق فایل txt
  • لینک های مرتبط با دیگر صفحات غیر خوانا یا ناصحیح باشد
  • استفاده بیش از حد بر فایل های فلش و تکنولوژی هایی که ربات های گوگل در خواندن محتوای آنها دچار مشکل می شوند.
  • کد نویسی ضعیف و درهم ریخته

تمامی این نقیصه ها می تواند از طریق ابزارهای راهنمایی گوگل برطرف گردد. اگر شما یک حساب کاربری گوگل وب مستر داشته باشید می توانید از طریق گزینه fetch and render می توانید صفحاتی از سایت خود را که هنوز ایندکس نشده اند را به صورت دستی به گوگل معرفی نمایید. البته شما در استفاده از این گزینه محدودیت خواهید داشت و بهتر است که فقط صفحات بسیار مهم خود راکه می بینید در بین صفحات ایندکس شده قرار ندارد برای این مورد استفاده کنید.

  1. حتی اگر برخی از فایل های CSS و JS شما توسط فایل txt بلاک شده باشند باز هم شما شاهد نقض در ایندکس صفحات خود خواهید بود . و این بسیار طبیعی خواهد بود که اگر برخی از منابع سایت شما به درستی لود نشوند آنگاه کل سایت شما به نوع دیگری به نظر خواهد رسید.

یک مثال بارز آن زمانی است که شما با استفاده از کدهای css خود قصد دارید صفحه ای را مخصوص نمایش در دستگاه های موبایل ایجاد نمایید. اگر ربات گوگل نتواند به این کدها به درستی دسترسی داشته باشد آنگاه ممکن است که فرض کند این صفحه شما برای دستگاه های موبایل بهینه سازی نشده است و شما شانس خود را برای قرار گرفتن در صفحات نتایج جستجوی این نوع از دستگاه ها از دست خواهید داد. در این سناریو و دیگر سناریوهای مشابه ممکن است که گوگل صفحات شما را درک کرده باشد و یا اینکه آنها را ایندکس کرده باشد اما ممکن است که به درستی تمام قابلیت های صفحه وب شما را در آن در نظر نگرفته باشد و در نتیجه به دلیل عدم ثبت این امکانات در ایندکس گوگل ممکن است که شما شانس قرار گرفتن در نتایج بالای جستجوها را از دست دهید.

آیا می توان ربات های گوگل را کنترل کرد؟

بله. شما با استفاده از فایل robots.txt  و استانداردهایی که در آن معین می کنید می توانید کنترل کارایی این ربات ها را در اختیار داشته باشید. برخی از روش هایی که شما می توانید از طریق آن کنترل این نوع ربات ها را در اختیار داشته باشید عبارتند از:

  • استفاده از فایل txt
  • قرار دادن دستورات مرتبط با ربات ها در بخش متادیتای صفحات وب سایت خود
  • قرار دادن دستورات ربات ها در تگ header
  • استفاده از نقشه سایت
  • استفاده از کنسول جستجوی گوگل

اما همانطوری که گفته شد معمول ترین راه استفاده از فایل robots.txt می باشد.

فایل robots.txt چیست؟

شما با استفاده از این فایل می توانید نوع مشاهده و تعامل صفحات خود در مواجهه با ربات های گوگل را معین نمایید. به طور خلاصه باید گفت که وقتی ربات ها به سایت شما می آیند از طریق این فایل دستورات لازم در مورد نحوه تعامل و بررسی سایت شما را مشاهده خواهند کرد.

نقشه سایت و ربات گوگل

Sitemap یا همان نقشه سایت راهی است که از طریق آن شما می توانید به ربات های گوگل کمک کنید تا بتوانند صفحات سایت شما را به خوبی مشاهده نمایند. به گفته خود گوگل : نقشه سایت یک فایل است که در آن شما می توانید تمامی صفحات سایت خود را لیست کرده و یک سازمان دهی و اطلاعات کامل از محتواهای سایت خود در اختیار موتورهای جستجوگر قرار دهید و خزندگان موتورهای جستجوگر مانند گوگل از این فایل استفاده کرده تا بتوانند سایت شما را به صورت هوشمندانه تری پیمایش نمایند.

همچنین این مورد برای برخی از سناریوها که دارای شرایط زیر باشد بسیار مفید می باشد:

  • سایت شما خیلی بزرگ باشد
  • سایت شما دارای صفحات محتوای زیادی می باشد که به درستی به یکدیگر لینک نشده است
  • سایت شما جدید می باشد و تعداد بک لینک های شما نیز کم می باشد.
  • در صورتی که سایت شما از محتواهای چند رسانه ای مانند سایت های خبری برخوردار باشد.

در حال حاضر از سایت مپ در بسیاری از کارها استفاده می شود. اما همانطور که گوگل گفته است شما از طریق سایت مپ می توانید لیستی از url های سایت خود ایجاد نمایید.

ربات گوگل و کنسول جستجوی گوگل

ربات گوگل

یک جای دیگری که شما می توانید از طریق آن ربات های گوگل را کنترل نمایید استفاده از کنسول جستجوی گوگل می باشد. انواع مختلفی از خانواده ربات های گوگل وجود دارد.

  • ربات گوگل
  • ربات تلفن های هوشمند
  • ربات موبایل
  • ربات عکس
  • ربات ویدئوها
  • ربات اخبار
  • ربات تبلیغات

عامل کاربر ربات گوگل چیست؟

همانطوری که گوگل ربات های زیادی دارد. برای هر کدام نیز عامل های کاربر خاصی را در نظر گرفته است. در این جا به بررسی اصلی ترین آنها می پردازیم.

  • Mozilla/5.0 (compatible: googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_3 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12F70 Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Googlebot-Image/1.0
  • Googlebot-Video/1.0

ربات گوگل ، زبان ها و مکان ها

اگر صفحات شما با زبان ها و محتواهای مختلف نوشته شده است و با توجه به مکان مورد جستجو ممکن است که ربات گوگل تمامی محتواهای شما را نگاه نکند.

کراول آگاهی محلی به وسیله ربات گوگل

برای این منظور موتور گوگل دو تکنیک اساسی را پیاده سازی می کند.

  • خزش توزیع یافته جغرافیایی: به نظر میرسد که برای خارج از ایالات آمریکا جهت تعیین جغرافیا از آدرس های آی پی استفاده می شود. و برای آدرس های دیگر نیز ربات های گوگل از ای پی های کشور آمریکا استفاده می کند.
  • خزیدن بر اساس وابستگی زبانی: همچنین کراولر های گوگل خزیدن های خود را بر اساس زبان های تعیین شده در بخش header تعیین خواهند نمود.

بنابراین می توان گفت که ربات های گوگل برای هرکدام از این موارد از یک عامل جداگانه استفاده کرده تا بتوانند به بهترین شکل ممکن دسته بندی های معین و مشخصی را بر اساس پارامترهای جستجوی خود ایجاد کرده و این خود کمک بزرگی به بخش نشانه گذاری گوگل خواهد کرد.

برای دسترسی به مقالات بیشتر می توانید به بخش مقالات لیو سایت ساز مراجعه نمایید.