ChatPaper.aiChatPaper

WebWalker: Evaluación comparativa de LLMs en el Traversal Web

WebWalker: Benchmarking LLMs in Web Traversal

January 13, 2025
Autores: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI

Resumen

La generación aumentada por recuperación (RAG) muestra un rendimiento notable en diversas tareas de preguntas y respuestas en dominios abiertos. Sin embargo, los motores de búsqueda tradicionales pueden recuperar contenido superficial, limitando la capacidad de los LLM para manejar información compleja y multicapa. Para abordar este problema, presentamos WebWalkerQA, un banco de pruebas diseñado para evaluar la capacidad de los LLM para realizar travesías web. Evalúa la capacidad de los LLM para recorrer las subpáginas de un sitio web para extraer datos de alta calidad de manera sistemática. Proponemos WebWalker, que es un marco multiagente que imita la navegación web de forma similar a la humana a través de un paradigma de exploración-crítica. Los extensos resultados experimentales muestran que WebWalkerQA es desafiante y demuestra la efectividad de combinar RAG con WebWalker, a través de la integración horizontal y vertical en escenarios del mundo real.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

Summary

AI-Generated Summary

PDF193January 14, 2025