ChatPaper.aiChatPaper

GISA: Un Punto de Referencia para el Asistente General de Búsqueda de Información

GISA: A Benchmark for General Information-Seeking Assistant

February 9, 2026
Autores: Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou
cs.AI

Resumen

El avance de los modelos de lenguaje de gran escala (LLM) ha acelerado significativamente el desarrollo de agentes de búsqueda capaces de recopilar información de forma autónoma mediante interacciones web multi-turno. Se han propuesto diversos puntos de referencia para evaluar dichos agentes. Sin embargo, los benchmarks existentes a menudo construyen consultas de forma inversa a partir de respuestas, produciendo tareas artificiales desalineadas con las necesidades del mundo real. Además, estos benchmarks tienden a centrarse en localizar información específica o en agregar información de múltiples fuentes, mientras dependen de conjuntos de respuestas estáticas propensos a la contaminación de datos. Para salvar estas brechas, presentamos GISA, un benchmark para Asistentes Generales de Búsqueda de Información que comprende 373 consultas creadas por humanos y que reflejan escenarios auténticos de búsqueda de información. GISA presenta cuatro formatos de respuesta estructurados (ítem, conjunto, lista y tabla), permitiendo una evaluación determinista. Integra tanto el razonamiento profundo como la agregación amplia de información dentro de tareas unificadas, e incluye un subconjunto dinámico con respuestas actualizadas periódicamente para resistir la memorización. Cabe destacar que GISA proporciona trayectorias de búsqueda humanas completas para cada consulta, ofreciendo referencias de oro para la supervisión a nivel de proceso y el aprendizaje por imitación. Los experimentos en LLM principales y productos de búsqueda comerciales revelan que incluso el modelo con mejor rendimiento alcanza solo un 19.30% de coincidencia exacta, con un rendimiento que se degrada notablemente en tareas que requieren planificación compleja y recopilación exhaustiva de información. Estos hallazgos subrayan un margen sustancial de mejora futura.
English
The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.
PDF222February 11, 2026