وردپرس

۷ روش بی‌خطر برای محافظت از سایت وردپرس خود در برابر خراش‌های محتوا

خراش دادن محتوا (معروف به وب اسکرپینگ، برداشت وب، داده کاوی وب و غیره) فرآیند استخراج داده از یک وب سایت است. اسکراپرهای محتوا افراد یا برنامه هایی هستند که داده ها را کپی می کنند. خراش دادن وب به خودی خود چیز بدی نیست. در واقع، همه مرورگرهای وب اساساً خراش دهنده محتوا هستند. اهداف قانونی بسیاری برای خراش‌دهنده‌های محتوا، مانند نمایه‌سازی وب برای موتورهای جستجو، وجود دارد.

نگرانی واقعی این است که آیا خراش دهنده های محتوای سایت شما مخرب هستند یا خیر. رقبا ممکن است بخواهند محتوای شما را بدزدند و آن را به عنوان محتوای خود منتشر کنند. اگر بتوانید بین کاربران قانونی و افراد بد تمایز قائل شوید، شانس بیشتری برای محافظت از خود دارید. این مقاله اصول اسکرپینگ وب را به همراه 7 روش برای ایمن سازی سایت وردپرس شما توضیح می دهد.

انواع اسکراپر محتوا

اسکراپرهای محتوا راه های مختلفی برای دانلود داده ها دارند. دانستن روش های مختلف و اینکه از چه فناوری استفاده می کنند کمک می کند. روش‌ها از فناوری پایین (فردی که به صورت دستی کپی و چسباندن می‌کند) تا ربات‌های پیچیده (نرم‌افزار خودکاری که می‌تواند فعالیت انسان را در مرورگر وب شبیه‌سازی کند) را شامل می‌شود. در اینجا خلاصه ای از آنچه ممکن است با آن روبرو شوید آورده شده است:

  • عنکبوت ها: خزیدن وب بخش بزرگی از نحوه عملکرد اسکراپرهای محتوا است. عنکبوت مانند Googlebot شروع به خزیدن در یک صفحه وب می کند و از پیوندی به پیوند دیگر می رود تا صفحات وب را بارگیری کند.
  • اسکریپت های پوسته: می‌توانید از لینوکس شل برای ایجاد اسکریپ‌های محتوا با اسکریپت‌هایی مانند استفاده کنید Wget گنو برای دانلود محتوا
  • اسکراپرهای HTML: اینها شبیه به اسکریپت های پوسته هستند. این نوع خراش بسیار رایج است. با بازیابی ساختار HTML یک وب سایت برای یافتن اطلاعات کار می کند.
  • خراش های صفحه: صفحه اسکراپر هر برنامه ای است که داده ها را از یک وب سایت با تکرار رفتار یک کاربر انسانی با استفاده از رایانه برای مرور وب جمع آوری می کند.
  • کپی انسانی: اینجا جایی است که یک شخص به صورت دستی محتوای وب سایت شما را کپی می کند. اگر تا به حال به صورت آنلاین منتشر کرده باشید، متوجه شده اید که سرقت ادبی بیداد می کند. پس از از بین رفتن تملق اولیه، این واقعیت ظاهر می شود که شخصی از کار شما سود می برد.

راه های زیادی برای انجام همین کار وجود دارد. دسته‌بندی‌های محتوای فهرست‌شده در بالا به هیچ وجه جامع نیستند. علاوه بر این، همپوشانی زیادی بین دسته ها وجود دارد.

ابزارهای مورد استفاده توسط Content Scrapers

عکس از medejaja / shutterstock.com

اسکراپرهای محتوای مختلفی و همچنین ابزارهای مختلفی برای کمک به فرآیند خراش دادن وب وجود دارد. همچنین برخی از سازمان های متخصص وجود دارند که خدمات داده کاوی را ارائه می دهند. هیچ کمبودی در ابزارهایی وجود ندارد که اسکراپرهای محتوا بتوانند از آنها برای یافتن اطلاعات استفاده کنند. این ابزار توسط آماتورها و حرفه ای ها برای اهداف مختلف استفاده می شود. همانطور که اغلب اتفاق می افتد، می توانید یک بسته پر از ابزار را دانلود کنید سوپ خوشمزه، یک بسته پایتون برای تجزیه اسناد HTML و XML. در زیر چند ابزار مورد استفاده توسط اسکراپرهای محتوا آورده شده است.

  • حلقه: این بخشی از libcurl است، یک کتابخانه PHP برای ایجاد درخواست های HTTP.
  • HTTrack: یک مرورگر وب رایگان و منبع باز که وب سایت ها را برای مرور آفلاین دانلود می کند.
  • گنو Wget: ابزاری برای دانلود محتوا از سرورها از طریق FTP، HTTPS و HTTP. آن را به صورت رایگان از وب سایت گنو دریافت کنید.
  • کانتو: نرم افزار اتوماسیون وب بصری رایگان که وظایفی را که معمولاً توسط انسان انجام می شود، مانند پر کردن فرم ها، خودکار می کند.

7 روش برای محافظت از سایت وردپرس خود در برابر خراش های محتوا

۷ روش بی‌خطر برای محافظت از سایت وردپرس خود در برابر خراش‌های محتوا

عکس توسط 0beron / shutterstock.com

مدیر وب سایت می تواند از اقدامات مختلفی برای توقف یا کاهش سرعت ربات استفاده کند. تکنیک‌هایی وجود دارد که وب‌سایت‌ها برای جلوگیری از خراش‌های محتوا از آن‌ها استفاده می‌کنند، مانند اجازه ندادن به ربات‌ها برای مشاهده صفحات خود و شناسایی آن‌ها. در زیر 10 راه برای محافظت از سایت خود در برابر خراش های محتوا آورده شده است.

1. محدود کردن و مسدود کردن نرخ

شما می توانید ابتدا با شناسایی مشکل با تعداد زیادی از ربات ها مبارزه کنید. برای یک ربات خودکار معمول است که تعداد زیادی درخواست به سرور شما ارسال کند. همانطور که از نام آن پیداست، محدود کردن نرخ، درخواست‌های سرور از یک کلاینت جداگانه را با تنظیم یک قانون محدود می‌کند.

می توانید کارهایی مانند اندازه گیری میلی ثانیه بین درخواست ها را انجام دهید. اگر پس از بارگیری صفحه اولیه، کلیک روی آن لینک برای شخصی خیلی سریع است، می دانید که یک ربات است. سپس آن آدرس IP را مسدود کنید. شما می توانید آدرس های IP را بر اساس تعدادی معیار از جمله کشور مبدا مسدود کنید.

2. ثبت نام و ورود

ورود و خروج یک روش محبوب برای محافظت از محتوا در برابر چشمان کنجکاو است. با این روش ها می توانید مانع پیشرفت ربات هایی شوید که نمی توانند از تصویر کامپیوتری استفاده کنند. به سادگی برای محتوایی که برای دنبال کنندگان خود می خواهید ثبت نام کرده و وارد شوید. اصول اولیه امنیت ورود در اینجا اعمال می شود. به یاد داشته باشید که صفحاتی که نیاز به ثبت نام و ورود به سیستم دارند توسط موتورهای جستجو ایندکس نمی شوند.

3. دیگ عسل و اطلاعات نادرست

در علم کامپیوتر، هانی پات ها عملیات های مجازی هستند. شما مهاجمان بالقوه را با راه‌اندازی تله‌های honeypot جمع‌آوری می‌کنید تا ترافیک را از اسکراپرهای محتوا شناسایی کنید. بی نهایت راه برای این کار وجود دارد.

به عنوان مثال، می توانید یک پیوند نامرئی به صفحه وب خود اضافه کنید. سپس یک الگوریتم ایجاد کنید که آدرس IP مشتری را که روی پیوند کلیک می کند مسدود می کند. راه اندازی و نگهداری هانی پات های پیچیده تر می تواند دشوار باشد. خبر خوب این است که بسیاری از پروژه های هانی پات منبع باز وجود دارد. این اندازه عالی را بررسی کنید لیستی از گلدان های عسل عالی در github.

4. از CAPTCHA استفاده کنید

کپچا مخفف عبارت Fully Automated Public Turing Test برای تشخیص کامپیوتر و انسان از یکدیگر است. کپچاها می توانند آزاردهنده باشند، اما مفید نیز هستند. می‌توانید از یکی برای مسدود کردن مناطقی که احتمال می‌دهید یک ربات به آن‌ها علاقه دارد، مانند دکمه ایمیل در فرم تماس خود، استفاده کنید. افزونه های کپچا زیادی برای وردپرس در دسترس هستند، از جمله ماژول کپچای Jetpack. ما همچنین یک پست آموزنده در مورد مزایای استفاده از CAPTCHA در وردپرس داریم که احتمالاً باید آن را بررسی کنید.

5. HTML را اغلب تغییر دهید

این را می توان با خراش دهنده های محتوا اشتباه گرفت که برای شناسایی بخش هایی از وب سایت شما به نشانه گذاری HTML قابل پیش بینی متکی هستند. می توانید با افزودن عناصر غیرمنتظره، آچاری را وارد این فرآیند کنید. فیسبوک قبلاً این کار را با تولید شناسه های تصادفی آیتم انجام می داد و شما هم می توانید. این می تواند به خراش دهنده های محتوا تا زمانی که شکسته شوند آسیب برساند. توجه داشته باشید که این روش ممکن است مشکلاتی را در به روز رسانی و حافظه پنهان ایجاد کند.

6. سردرگمی

می‌توانید با تغییر فایل‌های سایت، داده‌های خود را پنهان کنید تا کمتر در دسترس باشند. من با چند وب‌سایت برخورد کرده‌ام که متن را به‌عنوان تصویر نمایش می‌دهند، که این کار را برای افرادی که سعی در کپی و چسباندن متن شما به صورت دستی دارند دشوار می‌کند. شما هم می توانید از آن استفاده کنید جن CSS برای مخفی کردن نام تصاویر

7. به اشتراک نگذارید!

وقتی صحبت از رمزگذاری به میان می آید، دنیای واقعی بهترین گزینه است. اگر اطلاعاتی دارید که باید کاملا خصوصی نگه دارید، آن را در اینترنت قرار ندهید. عدم ارسال اطلاعات به صورت آنلاین در واقع تنها راه ایمن نگه داشتن محتوای شماست. در حالی که روش‌هایی که در اینجا بیان کرده‌ایم، راه‌های موثری برای جلوگیری از سرقت داده‌های شما توسط خراش‌دهنده‌های محتوا هستند – هیچ تضمینی وجود ندارد. این روش ها کار را سخت تر می کنند، اما غیر ممکن نیست.

نپیچید

برخی از اقدامات امنیتی بر تجربه کاربر تأثیر می گذارد. به یاد داشته باشید که ممکن است مجبور شوید بین امنیت و در دسترس بودن مصالحه کنید. بهتر است ابتدا دنبال میوه کم آویزان بروید. در بسیاری از موارد، می توانید یک افزونه برای کمک پیدا کنید. افزونه‌های امنیتی مانند WordFence و Sucuri می‌توانند محدودیت و مسدود کردن نرخ را از جمله موارد دیگر خودکار کنند. موثرترین روش هایی که من با آنها برخورد کردم عبارتند از:

  • استفاده از گلدان های عسل
  • پنهان کردن کد
  • نرخ محدودیت و سایر اشکال تشخیص

هیچ راه حل ضد گلوله ای برای محافظت از سایت شما در برابر خراش های محتوا وجود ندارد. تکامل اسکراپرهای محتوای پیچیده تر در پاسخ به وب مسترهای باهوش بود. این نبرد از اوایل دهه 1990 آغاز شده است. Scrapers می تواند تقریباً هر جنبه ای از یک کاربر انسانی را جعل کند، که می تواند تشخیص افراد بد را دشوار کند. در حالی که این کار دشوار است، اکثر اسکراپرهای محتوایی که با آنها برخورد خواهید کرد به اندازه کافی ساده هستند که به راحتی متوقف شوند.

آیا تجربه ای با اسکراپرهای محتوای مخرب دارید؟ برای جلوگیری از آنها چه کردید؟ در قسمت نظرات زیر به اشتراک بگذارید.

تصویر کوچک مقاله توسط Clover Lucky / shutterstock.com

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *