WebWalker : Évaluation des LLM dans la Traversée Web
WebWalker: Benchmarking LLMs in Web Traversal
January 13, 2025
Auteurs: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI
Résumé
La génération augmentée par recherche (RAG) démontre des performances remarquables à travers diverses tâches en réponse à des questions en domaine ouvert. Cependant, les moteurs de recherche traditionnels peuvent récupérer des contenus superficiels, limitant la capacité des LLM à traiter des informations complexes et multi-niveaux. Pour y remédier, nous introduisons WebWalkerQA, un banc d'essai conçu pour évaluer la capacité des LLM à effectuer une traversée du web. Il évalue la capacité des LLM à parcourir les sous-pages d'un site web pour extraire des données de haute qualité de manière systématique. Nous proposons WebWalker, qui est un cadre multi-agent imitant la navigation web de manière similaire à l'humain à travers un paradigme d'exploration-critique. De vastes résultats expérimentaux montrent que WebWalkerQA est un défi et démontre l'efficacité de la combinaison de RAG avec WebWalker, à travers l'intégration horizontale et verticale dans des scénarios réels.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance
across tasks in open-domain question-answering. However, traditional search
engines may retrieve shallow content, limiting the ability of LLMs to handle
complex, multi-layered information. To address it, we introduce WebWalkerQA, a
benchmark designed to assess the ability of LLMs to perform web traversal. It
evaluates the capacity of LLMs to traverse a website's subpages to extract
high-quality data systematically. We propose WebWalker, which is a multi-agent
framework that mimics human-like web navigation through an explore-critic
paradigm. Extensive experimental results show that WebWalkerQA is challenging
and demonstrates the effectiveness of RAG combined with WebWalker, through the
horizontal and vertical integration in real-world scenarios.Summary
AI-Generated Summary