ChatPaper.aiChatPaper

WideSearch: Evaluación de la Búsqueda de Información Amplia por Agentes

WideSearch: Benchmarking Agentic Broad Info-Seeking

August 11, 2025
Autores: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
cs.AI

Resumen

Desde la investigación profesional hasta la planificación cotidiana, muchas tareas se ven obstaculizadas por la búsqueda de información a gran escala, que es más repetitiva que cognitivamente compleja. Con el rápido desarrollo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés), los agentes de búsqueda automatizados impulsados por LLMs ofrecen una solución prometedora para liberar a los humanos de este trabajo tedioso. Sin embargo, la capacidad de estos agentes para realizar recopilaciones de "contexto amplio" de manera confiable y completa sigue sin ser evaluada en gran medida debido a la falta de puntos de referencia adecuados. Para cerrar esta brecha, presentamos WideSearch, un nuevo punto de referencia diseñado para evaluar la confiabilidad de los agentes en estas tareas de recopilación a gran escala. El punto de referencia incluye 200 preguntas curadas manualmente (100 en inglés, 100 en chino) de más de 15 dominios diversos, basadas en consultas reales de usuarios. Cada tarea requiere que los agentes recopilen información atómica a gran escala, que podría verificarse una por una de manera objetiva, y la organicen en una salida bien estructurada. Un riguroso proceso de control de calidad de cinco etapas garantiza la dificultad, completitud y verificabilidad del conjunto de datos. Evaluamos más de 10 sistemas de búsqueda agentes de última generación, incluyendo marcos de un solo agente, multiagente y sistemas comerciales de extremo a extremo. La mayoría de los sistemas logran tasas de éxito general cercanas al 0\%, con el mejor desempeño alcanzando apenas un 5\%. Sin embargo, dado suficiente tiempo, la validación cruzada por múltiples evaluadores humanos puede alcanzar una tasa de éxito cercana al 100\%. Estos resultados demuestran que los agentes de búsqueda actuales tienen deficiencias críticas en la búsqueda de información a gran escala, destacando áreas urgentes para futuras investigaciones y desarrollos en la búsqueda agentes. Nuestro conjunto de datos, proceso de evaluación y resultados de referencia han sido publicados en https://widesearch-seed.github.io/.
English
From professional research to everyday planning, many tasks are bottlenecked by wide-scale information seeking, which is more repetitive than cognitively complex. With the rapid development of Large Language Models (LLMs), automated search agents powered by LLMs offer a promising solution to liberate humans from this tedious work. However, the capability of these agents to perform such "wide-context" collection reliably and completely remains largely unevaluated due to a lack of suitable benchmarks. To bridge this gap, we introduce WideSearch, a new benchmark engineered to evaluate agent reliability on these large-scale collection tasks. The benchmark features 200 manually curated questions (100 in English, 100 in Chinese) from over 15 diverse domains, grounded in real user queries. Each task requires agents to collect large-scale atomic information, which could be verified one by one objectively, and arrange it into a well-organized output. A rigorous five-stage quality control pipeline ensures the difficulty, completeness, and verifiability of the dataset. We benchmark over 10 state-of-the-art agentic search systems, including single-agent, multi-agent frameworks, and end-to-end commercial systems. Most systems achieve overall success rates near 0\%, with the best performer reaching just 5\%. However, given sufficient time, cross-validation by multiple human testers can achieve a near 100\% success rate. These results demonstrate that present search agents have critical deficiencies in large-scale information seeking, underscoring urgent areas for future research and development in agentic search. Our dataset, evaluation pipeline, and benchmark results have been publicly released at https://widesearch-seed.github.io/
PDF933August 12, 2025