ChatPaper.aiChatPaper

WebWalker : Évaluation des LLM dans la Traversée Web

WebWalker: Benchmarking LLMs in Web Traversal

January 13, 2025
Auteurs: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI

Résumé

La génération augmentée par recherche (RAG) démontre des performances remarquables à travers diverses tâches en réponse à des questions en domaine ouvert. Cependant, les moteurs de recherche traditionnels peuvent récupérer des contenus superficiels, limitant la capacité des LLM à traiter des informations complexes et multi-niveaux. Pour y remédier, nous introduisons WebWalkerQA, un banc d'essai conçu pour évaluer la capacité des LLM à effectuer une traversée du web. Il évalue la capacité des LLM à parcourir les sous-pages d'un site web pour extraire des données de haute qualité de manière systématique. Nous proposons WebWalker, qui est un cadre multi-agent imitant la navigation web de manière similaire à l'humain à travers un paradigme d'exploration-critique. De vastes résultats expérimentaux montrent que WebWalkerQA est un défi et démontre l'efficacité de la combinaison de RAG avec WebWalker, à travers l'intégration horizontale et verticale dans des scénarios réels.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

Summary

AI-Generated Summary

PDF193January 14, 2025