WebWalker: Evaluación comparativa de LLMs en el Traversal Web
WebWalker: Benchmarking LLMs in Web Traversal
January 13, 2025
Autores: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI
Resumen
La generación aumentada por recuperación (RAG) muestra un rendimiento notable en diversas tareas de preguntas y respuestas en dominios abiertos. Sin embargo, los motores de búsqueda tradicionales pueden recuperar contenido superficial, limitando la capacidad de los LLM para manejar información compleja y multicapa. Para abordar este problema, presentamos WebWalkerQA, un banco de pruebas diseñado para evaluar la capacidad de los LLM para realizar travesías web. Evalúa la capacidad de los LLM para recorrer las subpáginas de un sitio web para extraer datos de alta calidad de manera sistemática. Proponemos WebWalker, que es un marco multiagente que imita la navegación web de forma similar a la humana a través de un paradigma de exploración-crítica. Los extensos resultados experimentales muestran que WebWalkerQA es desafiante y demuestra la efectividad de combinar RAG con WebWalker, a través de la integración horizontal y vertical en escenarios del mundo real.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance
across tasks in open-domain question-answering. However, traditional search
engines may retrieve shallow content, limiting the ability of LLMs to handle
complex, multi-layered information. To address it, we introduce WebWalkerQA, a
benchmark designed to assess the ability of LLMs to perform web traversal. It
evaluates the capacity of LLMs to traverse a website's subpages to extract
high-quality data systematically. We propose WebWalker, which is a multi-agent
framework that mimics human-like web navigation through an explore-critic
paradigm. Extensive experimental results show that WebWalkerQA is challenging
and demonstrates the effectiveness of RAG combined with WebWalker, through the
horizontal and vertical integration in real-world scenarios.Summary
AI-Generated Summary