وب پنهان، وب عمیق یا دیپ وب (به انگلیسی: Deep web) بخشهایی از شبکه وب جهانگستر هستند که محتویات آن به هر دلیلی توسط موتورهای جستجوی استاندارد نشانداده نمیشوند.واژهٔ متضاد دیپ وب، سرفیس وب (وب سطحی) است. دیپ وب شامل کابردهای بسیار رایجی همانند وبنامه و بانکداری آنلاین است. اولین تلفیق اصطلاح دیپ وب و دارک وب در حدود سال ۲۰۰۹ پدید آمد در زمانی که در کنار فعالیتهای غیرمجاز در شبکه آزاد دارکنت در حال وقوع بود. برخی از مشهورترین وبسایتهای وب پنهان سیلک رود یا آلفابی هستند.
اندازه
در سال ۲۰۰۰، مایکل کی. برگمن گفت چگونه سرچ کردن در اینترنت را میتوان با کشیدن یک شبکه در میان سطح یک اقیانوس مقایسه کرد: ممکن است که یک معامله خوبی در شبکه بدست بیاید، اما ثروتی از اطلاعات وجود دارد که عمیق و در نتیجه از دست رفته است. بسیاری از اطلاعات وب بسیار پایین در سایتها دفن شدهاند، و موتورهای جست و جوی استاندارد آنها را پیدا نمیکنند. موتورهای جستجوی سنتی محتوای در دیپ وب را نمیتوانند ببینند یا بازیابی کنند. بخشی از وب که توسط موتورهای جستجوی لیست شده به عنوان سرفیس وب (وب سطحی) شناخته میشود. در سال ۲۰۰۱، دیپ وب چندین برابر بزرگتر از سرفیس وب بود. یک مقایسه از کوه یخ توسط دنیس شستاکوف به ترتیب نشان دهندهٔ تفاوت بین سرفیس وب و دیپ وب است:
این غیرممکن است که اندازه گرفت، و سخت است که تخمین زد، اندازهٔ دیپ وب را زیرا اکثر اطلاعات مخفی یا قفل شده در پایگاههای داده هستند. تخمینهای اولیه نشان میدهد دیپ وب ۴۰۰ تا ۵۵۰ بار برگتر از سرفیس وب است. با این حال از آنجاکه همیشه اطلاعات و سایتهای بیشتری در حال اضافه شدن است میتوان فرض کرد که دیپ وب در حال رشد نمایی در نرخی است که نمیتوان مقدار دهی کرد.
براوردهای مبتنی بر تعمیم دهی از یک مطالعه انجام شده در دانشگاه کالیفرنیا برکلی در سال ۲۰۰۱ اندیشید که دیپ وب حدوداً شامل ۷٫۵ پتابایت میشود. تخمینهای دقیق تری نیز برای تعداد منابع رد دیپ وب وجود دارد: تحقیقات او و همکارانش. حدود ۳۰۰۰۰۰ دیپ وب سایت درسال ۲۰۰۴ در کل وب شناسایی شده، و با توجه به شستاکوف، حدود ۱۴۰۰۰ دیپ وب سایت در بخش روسی وب در سال ۲۰۰۶ وجود دارد.
انواع محتوا
روشهایی که از لیست شدن صفحات وب توسط مرور گرهای سنتی جلوگیری میکند ممکن است به عنوان یک یا ببیشتر از موارد زیر طبقهبندی شود:
اندازه
در سال ۲۰۰۰، مایکل کی. برگمن گفت چگونه سرچ کردن در اینترنت را میتوان با کشیدن یک شبکه در میان سطح یک اقیانوس مقایسه کرد: ممکن است که یک معامله خوبی در شبکه بدست بیاید، اما ثروتی از اطلاعات وجود دارد که عمیق و در نتیجه از دست رفته است. بسیاری از اطلاعات وب بسیار پایین در سایتها دفن شدهاند، و موتورهای جست و جوی استاندارد آنها را پیدا نمیکنند. موتورهای جستجوی سنتی محتوای در دیپ وب را نمیتوانند ببینند یا بازیابی کنند. بخشی از وب که توسط موتورهای جستجوی لیست شده به عنوان سرفیس وب (وب سطحی) شناخته میشود. در سال ۲۰۰۱، دیپ وب چندین برابر بزرگتر از سرفیس وب بود. یک مقایسه از کوه یخ توسط دنیس شستاکوف به ترتیب نشان دهندهٔ تفاوت بین سرفیس وب و دیپ وب است:
این غیرممکن است که اندازه گرفت، و سخت است که تخمین زد، اندازهٔ دیپ وب را زیرا اکثر اطلاعات مخفی یا قفل شده در پایگاههای داده هستند. تخمینهای اولیه نشان میدهد دیپ وب ۴۰۰ تا ۵۵۰ بار برگتر از سرفیس وب است. با این حال از آنجاکه همیشه اطلاعات و سایتهای بیشتری در حال اضافه شدن است میتوان فرض کرد که دیپ وب در حال رشد نمایی در نرخی است که نمیتوان مقدار دهی کرد.
براوردهای مبتنی بر تعمیم دهی از یک مطالعه انجام شده در دانشگاه کالیفرنیا برکلی در سال ۲۰۰۱ اندیشید که دیپ وب حدوداً شامل ۷٫۵ پتابایت میشود. تخمینهای دقیق تری نیز برای تعداد منابع رد دیپ وب وجود دارد: تحقیقات او و همکارانش. حدود ۳۰۰۰۰۰ دیپ وب سایت درسال ۲۰۰۴ در کل وب شناسایی شده، و با توجه به شستاکوف، حدود ۱۴۰۰۰ دیپ وب سایت در بخش روسی وب در سال ۲۰۰۶ وجود دارد.
انواع محتوا
روشهایی که از لیست شدن صفحات وب توسط مرور گرهای سنتی جلوگیری میکند ممکن است به عنوان یک یا ببیشتر از موارد زیر طبقهبندی شود:
- وب متنی: صفحاتی با محتوای متفاوت برای دسترسیهای مختلف به متون. (مثل محدودههایی از آدرسهای آی پی یا نتیجهٔ دنبالههای قبلی)
- محتوای پویا: صفحات پویا که به عنوان پرسشی به پرسوجوهای ارسال شده برگردانده میشوند …
- محتوای دسترسی محدود: سایتهایی که دسترسی به صفحاتشان را با روشهای تکنیکی محدود میکنند (مثل استاندارد ممانعت از رباتها یا کپچا، یا … که موتورهای جستجو را از لیستبندی آنها و تهیه کپی کَش منع میکند)
- محتوای غیر متنی/اچ تیامال: محتوای متنی در فایلهای چند رسانهای (عکس یا فیلم) کد گذاری میشوند یا فرمتهای خاصی از فایلها توسط موتورهای جستجو
- وب خصوصی: سایتهایی که ثبت نام و وررود نیاز دارند (منابع محافظتشده توسط کلمه عبور)
- محتوای اسکریپت شده: صفحاتی که تنها از طریق لینکهای تولید شده توسط جاوا اسکریپت قابل دسترسی هستند مثل محتوایی که به صورت پویا از وب سرورها به وسیلهٔ شخص یا فلش دانلود میشود.
- نرمافزار: برخی از محتواها عمداً از اینترنت عادی مخفی شدهاند، و تنها با نرمافزارهای خاصی مثل تور و آی تو پی یا سایر نرمافزارهای دارک نت قابل دسترسی هستند. تور به کاربران اجازه میدهد به وب سایتهایی که از آدرس سرور .آنیون استفاده میکنند به صورت بینام و مخفی کردن آدرس آی پی خود دسترسی پیدا کنند
- محتوای لینک نشده: صفحاتی که با صفحات دیگر لینک نشدهاند، ممکن است توسط برنامههای پوششی وب از دسترسی به محتوا منع شوند. این محتوا به مانند پیجهایی است که بک لینک ندارند. (به عنوان این لینک هم شناخته میشوند) همچنین موتورهای جستجو همیشه همهٔ بک لینکها را از صفحات وب جستجو شده شناسایی نمیکند.
- آرشیوهای وب: سرویسهاس آرشیوی وب مثل «وی بک ماشین» کاربران را قادر به دیدن ورژن آرشیو شدهٔ صفحات وب در طول زمان میسازد، شامل وب سایتهایی که غیرقابل دسترسی شدهاند، و توسط مرور گرهایی مثل گوگل، لیستبندی نشدهاند.
آخرین ویرایش توسط مدیر: