ChatPaper.aiChatPaper

WebWalker: Benchmarken van LLM's in Webtraversal

WebWalker: Benchmarking LLMs in Web Traversal

January 13, 2025
Auteurs: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI

Samenvatting

Retrieval-augmented generation (RAG) toont opmerkelijke prestaties over verschillende taken in open-domain vraag-antwoord systemen. Echter, traditionele zoekmachines kunnen oppervlakkige inhoud ophalen, wat de mogelijkheid van LLMs beperkt om complexe, meerlaagse informatie te verwerken. Om dit aan te pakken, introduceren we WebWalkerQA, een benchmark ontworpen om de capaciteit van LLMs te beoordelen om webtraversie uit te voeren. Het evalueert de capaciteit van LLMs om door de subpagina's van een website te navigeren om systematisch hoogwaardige gegevens te extraheren. We stellen WebWalker voor, een multi-agent framework dat menselijke webnavigatie nabootst via een verken-criticus paradigma. Uitgebreide experimentele resultaten tonen aan dat WebWalkerQA uitdagend is en de effectiviteit van RAG gecombineerd met WebWalker aantoont, door horizontale en verticale integratie in real-world scenario's.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

Summary

AI-Generated Summary

PDF193January 14, 2025