ChatPaper.aiChatPaper

GISA: 汎用情報検索アシスタントのためのベンチマーク

GISA: A Benchmark for General Information-Seeking Assistant

February 9, 2026
著者: Yutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou
cs.AI

要旨

大規模言語モデル(LLM)の進展により、マルチターンのWeb対話を通じて自律的に情報を収集可能な検索エージェントの開発が大幅に加速している。このようなエージェントを評価するため、様々なベンチマークが提案されてきた。しかし、既存のベンチマークはしばしば回答から逆方向にクエリを構築するため、現実のニーズに合わない不自然なタスクを生み出している。さらに、これらのベンチマークは特定情報の位置特定か複数情報源からの集約のいずれかに偏りがちで、データ汚染を受けやすい静的な回答セットに依存する傾向がある。これらのギャップを埋めるため、我々は実際の情報探索シナリオを反映した373の人手作成クエリから構成される、汎用情報探索アシスタント向けベンチマークGISAを提案する。GISAは4つの構造化回答形式(項目、集合、リスト、表)を特徴とし、確定的な評価を可能にする。深い推論と広範な情報集約を統合タスク内に統合し、記憶化を防ぐために定期的に回答が更新されるライブサブセットを含む。特筆すべきは、GISAが全クエリに対し完全な人間の検索軌跡を提供し、プロセスレベルでの監督学習および模倣学習のためのゴールドスタンダードな参照を可能にすることである。主流LLMおよび商用検索製品を用いた実験では、最高性能モデルでも完全一致スコアが19.30%に留まり、複雑な計画立案と包括的な情報収集を要するタスクでは性能が顕著に低下することが明らかになった。これらの知見は、将来の改善余地が大きいことを示唆している。
English
The advancement of large language models (LLMs) has significantly accelerated the development of search agents capable of autonomously gathering information through multi-turn web interactions. Various benchmarks have been proposed to evaluate such agents. However, existing benchmarks often construct queries backward from answers, producing unnatural tasks misaligned with real-world needs. Moreover, these benchmarks tend to focus on either locating specific information or aggregating information from multiple sources, while relying on static answer sets prone to data contamination. To bridge these gaps, we introduce GISA, a benchmark for General Information-Seeking Assistants comprising 373 human-crafted queries that reflect authentic information-seeking scenarios. GISA features four structured answer formats (item, set, list, and table), enabling deterministic evaluation. It integrates both deep reasoning and broad information aggregation within unified tasks, and includes a live subset with periodically updated answers to resist memorization. Notably, GISA provides complete human search trajectories for every query, offering gold-standard references for process-level supervision and imitation learning. Experiments on mainstream LLMs and commercial search products reveal that even the best-performing model achieves only 19.30\% exact match score, with performance notably degrading on tasks requiring complex planning and comprehensive information gathering. These findings highlight substantial room for future improvement.
PDF222February 11, 2026