طراحی وب سایت

طراحی وب سایت,طراحی سایت در کرج

طراحی وب سایت

طراحی وب سایت,طراحی سایت در کرج

کاستی های الگوریتمی در موتورهای جستجوی وب سایت

کاستی های الگوریتمی در موتورهای جستجوی سایت:
ما در این مقاله شش مسأله الگوریتم حل نشده یا بخشی حل شده را که در موتورهای جست و جوی وب رخ میدهد شرح میدهیم : (1) نمونه گیری یکنواخت صفحات وب (2) مدل کردن گراف وب (3) یافتن میزبانهای دوگان (4) یافتن تارک داران و تارک بازان (5) یافتن گرافهای بزرگ دوبخشی چگال ، و درک چگونگی إفراز وب توسط بردارهای ویژه .
  

1 . مقدمه
موتور جست و جوی وب از سه بخش تشکیل میشود : (1) یک دنبالگرد crawler که صفحات وب را پیدا میکند تا داخل مجموعه صفحات وب آن موتور قرار گیرد، (2) یک شاخص گذار indexer که شاخص معکوس inverted index ( نیز موسوم به شاخصindex ) را که ساختمان اصلی دادههای مورد استفاده ی آن موتور جست وجواست و صفحات وب دنبال گشته crawled را ارائه میکند ، (3) یک پاسخ دهنده که پرس و جوهای کاربر را با استفاده از شاخصها پاسخ میدهد .
در حد مقصود ما بگوییم، دنبالگرد، وب را به مثابه ی یک گراف مینگرد : هر صفحه وب یک گره است و هر ابرپیوند یک کمان است . پرسش اساسی ای که دنبالگرد با آن رودررو است این است که کدام صفحه ها را پیدا کند تا ‹‹ مناسب ترین›› صفحات را در مجموعه ی خود داشت باشد .
برخی مسائل باز که ذیلا عنوان شده است، میتواند دنبالگردهابهبود بخشد.
-درک بهتر از ساختار گراف (بخش 3 ) ممکن است به راه کارآمدتری برای دنبالگردی در وب منجر شود .
- درک بهتر خصوصیت های مختلف وب (بخش 2) میتواند مشخص کند کدام جمعیت از صفحه ها در دنبالگردی تا بدینجا کمترارائه شده هستند .
- راه مؤثری برای یافتن میزبانهای دوگان Duplicate hosts میتواند به دنبالگرد کمک کند تا از دنبالگردی در دوگان‏‏ میزبانیکه قبلا دنبالگردی کرده است ، پرهیز نماید .
به فرض این که مجموعه ای از پرس وجوها به موتور جست و جوعرضه شده باشد ، مساله ی اصلی این است که کدام پرس وجوها بیشتر بوده است.البته برای کشف تأثیرات موقت ، جستن « تارک داران» top gainers و « تارک بازان» top losers نیز جالب است . این مسأله در بخش 5 مطرح شده است. در پایان ، دو مسأله را که در ارتباطبا خوشه ای شدن موضوع-وابسته ی وب یا یک زیرگراف آن است مطرح میکنیم: بخش 6 از مسأله ی یافتن زیر گرافهای دوبخشی جهت دار چگال بحث میکند . بخش 7 پرسش چگونگی اشتقاق بردارهای ویژه ی ماتریسهای مختلف را از گراف وب عرضه میدارد . ما هر یک از این مسائل باز را ترسیم کرده ، ارجاعاتی نیز به کارهای پیشین در این زمینه میدهیم .
2- نمونه گیری صفحات وب
درک وب و خصوصیت های آن ، از آغاز وب ، یک موضوع مهم تحقیقاتی است . چند صفحه در وب وجود دارد؟چند تا از آنها توسط موتور جست و جویی شاخص گذاری شده است؟ چند صفحه به یک زبان خاص یا در یک حوزه ی معین وجود دارد ؟ متوسط اندازه ی یک صفحه ی وب چقدر است ؟ چه درصدی از صحات وب صفحه ی اصلی هستند ؟ و این خصوصیت ها در زمان چگونه تغییر میکند ؟ موتور های جست وجومیکوشند تا آنجا که ممکن باشد، اطلاعاتوب را ثبت کنند . به علاوه نسبت انواع مختلف صفحه ها ، نظیر صفحه های به زبانهای مختلف باید تقریبا متناسب با انواع موجود در وب باشد .
رد گیری این خصوصیات در دنبالگردی بدیهی است . بنابر این اگر این آمار برای وب معلوم باشد ، دنبالگرد میتواند تعیین کند که چه انواعی از صفحات وب تا بدینجا خیلی کمتر ارائه شده هستندو بکوشد بیشتر از آنها دنبالگردی کند .
برا ی نمونه گیری یکنواخت صفحات وب میشد از یک فناستفاده کرد ، تا همه ی چنین سؤالاتی را به جز سؤال نخست پاسخ داد . متأسفانه چنین فنی شناخته نشده است اگرچه تحقیقات دامنهداری در این خصوص صورت گرفته است . لارنس و جایلز[Lawrence and giles 99 ] از رهیافتهای مبتنی بر آزمون تصادفی نشانی های ip  بهره گرفتند : آنها یک نشانی تصادفی ip   را انتخاب کردند و بررسی کردند که آیا آن میزبان host یک وبگاهاست یا نه . در صورت بودن ،آنها میکوشند صفحه های وب دسترس پذیر این وبگاهرا نمونه گیری کنند . البته اگر از صفحات وب یک وبگاه فهرست جامعی نداشته باشیم این که چگونه از این صفحه های وب نمونه گیری کنیم ، همچنان یک مسأله ی باز باقی خواهد ماند . هنتسینگر و همکارانش [henzinger et al . 00] تشکیل یک راه تصادفی خاص را بر گراف (جهت دار ) وب و آنگاه نمونه گیری ازصفحاتعبور شده را به طور معکوس متناسب با توزیع ثابت راه تصادفی مطرح نمودند . این رهیافت مشکلاتی چند دارد . یک مسأله این که، واضح نیست که چند مرحله باید انجام داد تا توزیع متوازن راتقریب زد.
منبع : شبکه فناوری اطلاعات ایران
 
http://www.sunic.ir/articles-menu/web-design/351-algorithmic-deficiencies-in-web-search-engines

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.