سلوك زاحف الشبكة هو نتيجة لمزيج من السياسات Cite thesis degree Ph.D. Effective Web Crawling url http //chato.cl/research/crawling_thesis author Castillo, C. last Castillo first Carlos year 2004 publisher University of Chile accessdate -08-03 docket oclc
بالنظر إلى الحجم الحالي للشبكة، حتى محركات البحث الكبرى لا تستطيع سوى تغطية جزء مما متاح للجمهور. وأظهرت دراسة أجريت عام 2005 ان محركات البحث الكبرى لا تفهرس أكثر من 40 ظھ -70 ظھ من الشبكة المتاحة cite conference url http //doi.acm.org/10.1145/1062745.1062789 The indexable web is more than 11.5 billion pages author Gulli, A. coauthors Signorini, A. year 2005 publisher ACM Press. book Special interest tracks and posters of the 14th international conference on World Wide Web pages 902–903 doi 10.1145/1062745.1062789 ؛ ودراسة سابقة أجراها الدكتور ستيف لورانس وجايلز لي أظهرت أنه لم يوجد محرك البحث قادر على فهرسة أكثر من 16 ظھ من شبكة الإنترنت في عام 1999 Cite journal doi 10.1038/21987 volume 400 issue 6740 page 107 last Lawrence first Steve coauthors C. Lee Giles Accessibility of information on the web journal Nature accessdate -03-22 date 1999-07-08 pmid 10428673 . بما ان تنزيلات الزاحف دائما مجرد جزء صغير من صفحات الشبكة، فمن المرغوب فيه جدا أن الجزء المحمل يحتوي على معظم الصفحات ذات الاهمية، وليس مجرد عينة عشوائية من الشبكة.
هذا يتطلب مجدول من الثوابت لتحديد أولويات الصفحات على الشبكة. أهمية الصفحة تنبع من جودتها الذاتية، ومدى شعبيتها من حيث الوصلات أو الزيارات، وحتى من عنوانها (وهذا الثابت الأخير هو الحال في محركات البحث العمودى التي تقتصر على مجال المستوى الأعلى المستوى الأعلى من موقع، أو محركات البحث المقصورة على موقع ثابت). وهناك صعوبة اضافية في تصميم سياسة انتقاء جيدة وهي انها يجب أن تتعامل مع معلومات جزئية، فأثناء الزحف لا تعرف المجموعة الكاملة من صفحات الشبكة مسبقا.
قام تشو وآخرون بأول دراسة حول السياسات المتعلقة بجدولة الزحف. مجموعةبياناتهم كان زحف على 180000 صفحة من موقع stanford.edu، وتم محاكاة الزحف باستراتيجيات مختلفة. Cite journal author Cho, J. Garcia-Molina, H. Page, L. contribution Efficient Crawling Through URL Ordering contribution-url http //ilpubs.stanford.edu 8090/347/ Seventh International World-Wide Web Conference date 1998-04 place Brisbane, Australia accessdate -03-23 . كانت جداول الترتيب التي اختبرت هي الاتساع اولا، وعدد الصلات العائدة, وحسابات ترتيب الصفحة الجزئي. كان واحدا من الاستنتاجات ان الزاحف إذا اراد تحميل الصفحات ذات الرتبة العالية في وقت مبكر خلال عملية الزحف فإن سياسة رتبة الصفحة الجزئي هي الأفضل، وتليها استراتيجية الاتساع أولا، ثم عدد الصلات العائدة. ومع ذلك، فإن هذه النتائج هي لموقع واحد فقط.
نفذ ناجورك ووينر عملية زحف فعلي على 328 مليون صفحة مستخدمين سياسة الاتساع أولاMarc Najork and Janet L. Wiener. Breadth-first crawling yields high-quality pages. In Proceedings of the Tenth Conference on World Wide Web, pages 114–118, Hong Kong, May 2001. Elsevier Science.. ووجدوا أن الزحف بسياسة الاتساع أولا يلتقط الصفحات ذات رتبة الصفحة العالية في وقت مبكر من الزحف (لكنهم لم يقارنوا هذه الاستراتيجية ضد استراتيجيات أخرى). التفسير الذي قدمه الباحثون لهذه النتيجة هو أن أهم صفحات يصلها العديد من الروابط من مضيفين متعددين، وسيتم العثور على تلك الروابط في وقت مبكر، بغض النظر عن المضيف أو الصفحة التي ينشاء منها الزحف .
صمم ابيطبول استراتيجية زحف قائمة على خوارزمية تدعى OPIC (حسابأهمية الصفحة على الإنترنت, أو اوبيك) Cite conference publisher ACM doi 10.1145/775152.775192 isbn 1-58113-680-3 pages 280–290 last Abiteboul first Serge coauthors Mihai Preda, Gregory Cobena Adaptive on-line page importance computation book Proceedings of the 12th international conference on World Wide Web location Budapest, Hungary accessdate -03-22 year 2003 url http //www2003.org/cdrom/papers/refereed/p007/p7-abiteboul.html . في أوبيك، تعطى كل صفحة مبلغ أولي من النقدية التي يتم توزيعها بالتساوي بين الصفحات التي تشير إليها. وذلك مماثل لحساب رتبة الصفحة، ولكنه أسرع ويتم في خطوةواحدة فقط. والزاحف الذي يستعمل اوبيك ينزل أولا الصفحات في حدود الزحف التي لديها كمية أكبر من النقد . وأجريت التجارب على رسومات بيانية اصطناعية كل منها يحتوى على 100،000 صفحة, ولكنها لم تقارن مع غيرها من الاستراتيجيات أو في الواقع على الإنترنت.
بولدى وآخرون استخدموا محاكاة على مجموعة مصغرة من الشبكة تحتوى على 40 مليون صفحة تحت منطقة.it الخاصة بإيطاليا و 100 مليون صفحة من الزحف ويب باس، واختبروا استراتيجية الاتساع اولا ضد العمق اولا مع تريب عشوائى واستراتيجية لديها كل المعلومات (كلية العلم). واستندت المقارنة على مدى جودة تقييم رتبة الصفحة المحسوبة على أساس زحف جزئي مقاربة رتبة الصفحة الحقيقية. من المستغرب، ان بعض الزيارات التي تراكم رتبة الصفحة بسرعةكبيرة (وأبرزها، الاتساع اولا، وكلية العلم) تقدم تقديرات تقريبية تدريجية سيئة للغاية Cite journal doi 10.1002/spe.587 volume 34 issue 8 pages 711–726 last Boldi first Paolo coauthors Bruno Codenotti, Massimo Santini, Sebastiano Vigna UbiCrawler a scalable fully distributed Web crawler journal Software Practice and Experience accessdate -03-23 year 2004 url http //vigna.dsi.unimi.it/ftp/papers/UbiCrawler.pdf مرجع كتاب الصفحات 168–180 الأخير Boldi الأول Paolo المؤلفين المشاركين Massimo Santini, Sebastiano Vigna العنوان Algorithms and Models for the Web-Graph chapter Do Your Worst to Make the Best Paradoxical Effects in PageRank Incr ental Computations تاريخ الوصول -03-23 سنة 2004 chapterurl http //vigna.dsi.unimi.it/ftp/papers/ParadoxicalPageRank.pdf مسار http //springerlink.com/content/g10m122f9hb6 . بايز ييتس وآخرون استخدموا محاكاة على اثنين من المجموعات المصغرة من الشبكة مكونة من 3 ملايين صفحة من اليونان وشيلى، واختبروا عليها استراتيجيات زحف عدةBaeza-Yates, R., Castillo, C., Marin, M. and Rodriguez, A. (2005). Crawling a Country Better Strategies than Breadth-First for Web Page Ordering. In Proceedings of the Industrial and Practical Experience track of the 14th conference on World Wide Web, pages 864–872, Chiba, Japan. ACM Press.. وأظهروا أن كلا من استراتيجية اوبيك والاستراتيجية التي تستخدم طول قوائم الانتظار على الموقع هما أفضل من استراتيجية الاتساع اولا، وأن استخدام أي زحف سابق أيضا فعال جدا، عندمايكون متوفرا، لتوجيه الزحف الحالي.
دانيشباجوه وآخرون صمموا خوارزمية لاكتشاف بذور جيدةShervin Daneshpajouh, Mojtaba Mohammadi Nasiri, Mohammad Ghodsi, A Fast Community Based Algorithm for Generating Crawler Seeds Set], In proceeding of 4th International Conference on Web Information Syst s and Technologies ([http //www.webist.org/ WEBIST- ), Funchal, Portugal, May .. طريقتهم تزحف على صفحات الشبكة ذات الرتبة العالية من مجتمعات مختلفة بتكرار أقل بالمقارنة مع بدء الزحف من بذور عشوائية. يمكن للمرء استخراج بذور جيدة من رسم بياني لشبكة تم زحفها مسبقا باستخدام هذا الأسلوب الجديد. وباستخدام هذه البذور سيكون الزحف الجديدفعالا جدا.
زاحف الشبكة هو برنامج كمبيوتر يقوم بتصفح الشبكةالعالمية بطريقة منهجية وآليه ومنظمة. هناكمصطلحاتأخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت Cite journal author Kobayashi, M. and Takeda, K. Information retrieval on the web journal ACM Computing Surveys volume 32 issue 2 pages 144–173 year 2000 publisher ACM Press url http //doi.acm.org/10.1145/358923.358934 doi 10.1145/358923.358934 ، وعناكب الشبكة cite web last Spetka first Scott The TkWWW Robot Beyond Browsing url http //archive.ncsa.uiuc.edu/SDG/IT94/Proceedings/Agents/spetka/spetka.html publisher National Center for Supercomputing Applications NCSA accessdate 21 Nov ber archiveurl http //web.archive.org/web/20040903174942/archive.ncsa.uiuc.edu/SDG/IT94/Proceedings/Agents/spetka/spetka.html archivedate 3 Sept ber 2004 ، أو آليات الشبكة . وهذه العملية تسمى الزحف علي الشبكة أو العنكبة.
بسبب الحجم الكبيريمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاءالأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها.
و عدد مسار مورد منمط العناوين القابلة للزحف والتي تتولد من جانب البرمجيات الخادمة للمواقع على الشبكة جعلت من الصعب تجنب استرجاع محتويات مكرره أثناء الزحف على شبكة الإنترنت. يوجد تركيبات لانهائية من العناوين القائمة على أساس بروتوكول نقل النص الفائق ، ولكن في الحقيقة لا يوجد سوى مجموعةصغيرة منها تعيد محتوى فريد. على سبيل المثال، قد يقدم عارض مبسط الصور على الإنترنت ثلاثة خيارات للمستخدمين، على النحو المحدد من خلال معلمات بروتوكول نقل النص الفائق في العنوان. إذا كان هناك أربع طرق لفرز الصور، وثلاثة خيارات لحجم الصورة المصغرة، وطرقتين لتنسيق الملفات، بالإضافة إلى خيار لتعطيل المحتوى القادم من المستخدم، فنفس المجموعة من محتوى يمكن الوصول إليها من خلال 48 عناوينمختلفة، كل منها على الموقع. هذا توافيق التوافق الرياضي يخلق مشكلة للزواحف، لأنها يجب أن تفرز من خلالتركيبات لا تنتهي من تغييرات طفيفة نسبيا في لغة البرمجة من أجل استرداد محتوى فريد من نوعه. ويجب أن يختار الزاحف بعناية في كل خطوة الصفحات التي تلي في الزيارة.