خزنده وب

توسعه, مقالات آموزشی

تعریف

امروزه موتور های جستجوی زیادی وجود دارند مانند Google، Bing، Yahoo!، DuckDuckGo، Baidu، Yandex و بسیاری دیگر. هر کدام از این موتورها، ربات خزنده مخصوص به خود را برای نمایه بندی صفحات بکار می برند.
این ربات ها، فرایند خزیدن (crawling) را از محبوب ترین وبسایت ها آغاز می کنند. هدف اول ربات های وب، این است که مفهوم اصلی محتوای هر صفحه را منتقل کنند. از این رو، ربات های وب، کلمات این صفحه ها را جستجو می کنند. و یک لیست کاربردی از این کلمات تهیه می کنند . این لیست، دفعه بعد که می خواهید اطلاعاتی راجع به درخواست ها و پرسش های خود پیدا کنید، توسط موتور جستجو مورد استفاده قرار می گیرد.
تمام صفحات موجود در اینترنت، توسط ابرپیوندها (hyperlinks) به یکدیگر متصل هستند. بنابراین، ربات های خزنده، می توانند این لینک ها را کشف کرده و آنها را تا صفحات بعدی دنبال کنند. ربات های وب، تنها زمانی متوقف می شوند که محل تمامی مطالب و وبسایت های متصل به هم را پیدا کنند. سپس، اطلاعات ثبت شده را برای نمایه جستجو ارسال می کنند که بر روی سرورهای سراسر دنیا ذخیره شده است. تمامی این فرایند، شبیه به یک تار عنکبوت واقعی است که در آن، همه چیز در هم تنیده است.
فرایند خزیدن، بلافاصله پس از این که صفحات، نمایه بندی شدند، متوقف نمی شود. موتور های جستجو به صورت متناوب، از خزنده های وب استفاده می کنند تا متوجه شوند آیا تغییری در صفحات رخ داده است یا نه. اگر تغییری رخ داده باشد، نمایه تولید شده توسط موتور جستجو، بر اساس آن بروزرسانی می شود

انواع

انواع خزنده های کاربردی
خزیدن در ایمیل ها
خزیدن در ایمیل ها (Email crawling)، مخصوصا برای جذب مخاطب و مشتری بسیار مفید است. زیرا در این نوع از خزیدن، می توان نشانی ایمیل افراد را استخراج کرد. شایان ذکر است که این نوع از خزیدن، غیرقانونی است چرا که حریم خصوصی افراد را زیر پا می گذارد. بنابراین، خزیدن در ایمیل ها، بدون اجازه کاربران، قابل استفاده نیست.

خزیدن در اخبار
با ظهور اینترنت، خبرها از سراسر دنیا، به سرعت در محیط وب پخش می شوند و استخراج داده از وبسایت های گوناگون، تقریبا غیر قابل کنترل و مهار ناشدنی است.
خزنده های وب فراوانی وجود دارند که می توانند این کار، یعنی خزیدن در اخبار (News crawling) را انجام دهند. این نوع ربات های خزنده، می توانند داده ها را از میان خبرهای جدید، قدیمی و آرشیو شده بیرون بکشند و فیدهای RSS را نیز بخوانند. این ربات ها همچنین می توانند اطلاعاتی نظیر تاریخ انتشار خبر، نام نویسنده، سرتیترها، پاراگراف های مقدم، متن اصلی و زبان یک خبر را نیز استخراج کنند.

خزیدن در تصاویر
خزیدن در تصاویر (Image crawling)، همانگونه که از نام آن مشخص است، بر روی عکس ها اعمال می شود. صفحات اینترنت پر هستند از تصاویر و اطلاعات بصری. بنابراین، اینگونه ربات ها، به افراد کمک می کنند تا تصاویر مرتبط را از میان انبوهی از تصاویر در بستر اینترنت پیدا کنند.

خزیدن در شبکه های اجتماعی
خزیدن در شبکه های اجتماعی (Social media crawling)، یک موضوع بسیار جالب است چرا که خزیدن در تمامی بسترهای شبکه اجتماعی، مجاز نیست. هم چنین باید در ذهن داشته باشید که این نوع از خزیدن، اگر قوانین مرتبط با حریم خصوصی را رعایت نکند، می تواند غیرقانونی باشد. با این وجود، بسیاری از ارائه دهندگان شبکه های اجتماعی، مشکلی با خزیدن ندارند. به عنوان مثال، شبکه های اجتماعی پینترست (Pinterest) و توییتر (Twitter)، به ربات های خزنده اجازه می دهند که صفحاتشان را اسکن کنند. البته در صورتی که حساس به کاربر(user-sensitive) نباشد و اطلاعات شخصی افراد را فاش نسازد. فیس بوک (Facebook) و لینکداین (LinkedIn) در این مورد بسیار سختگیر هستند.