ChatPaper.aiChatPaper

GISA : Un Benchmark pour l'Assistant Général de Recherche d'Informations

GISA: A Benchmark for General Information-Seeking Assistant

February 9, 2026
papers.authors: Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou
cs.AI

papers.abstract

Le progrès des grands modèles de langage (LLM) a considérablement accéléré le développement d’agents de recherche capables de collecter de manière autonome des informations via des interactions web multi-tours. Divers benchmarks ont été proposés pour évaluer de tels agents. Cependant, les benchmarks existants construisent souvent les requêtes à rebours à partir des réponses, produisant des tâches artificielles non alignées sur les besoins réels. De plus, ces benchmarks tendent à se concentrer soit sur la localisation d’informations spécifiques, soit sur l’agrégation d’informations provenant de multiples sources, tout en s’appuyant sur des ensembles de réponses statiques sujets à la contamination des données. Pour combler ces lacunes, nous présentons GISA, un benchmark pour assistants généraux de recherche d’information comprenant 373 requêtes conçues par des humains reflétant des scénarios authentiques de quête d’information. GISA propose quatre formats de réponse structurés (élément, ensemble, liste et tableau), permettant une évaluation déterministe. Il intègre à la fois un raisonnement profond et une large agrégation d’informations au sein de tâches unifiées, et inclut un sous-ensemble dynamique avec des réponses périodiquement mises à jour pour résister à la mémorisation. Notamment, GISA fournit des trajectoires de recherche humaines complètes pour chaque requête, offrant des références de qualité or pour la supervision au niveau processus et l’apprentissage par imitation. Les expériences sur les LLM grand public et les produits de recherche commerciaux révèlent que même le modèle le plus performant n’atteint qu’un score de correspondance exacte de 19,30 %, avec une dégradation notable des performances sur les tâches nécessitant une planification complexe et une collecte d’information exhaustive. Ces résultats mettent en évidence une marge substantielle d’amélioration future.
English
The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.
PDF222February 11, 2026