InteractComp: あいまいなクエリによる検索エージェントの評価
InteractComp: Evaluating Search Agents With Ambiguous Queries
October 28, 2025
著者: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI
要旨
言語エージェントは、Web検索や情報検索において顕著な可能性を示してきました。しかし、既存の検索エージェントはユーザークエリが完全で曖昧性がないことを前提としており、これは現実のユースケース—ユーザーが不完全なクエリから開始し、対話を通じて明確化を必要とする場面—と乖離しています。にもかかわらず、大半のエージェントは検索プロセスにおける対話的メカニズムを欠いており、既存のベンチマークもこの能力を評価できません。この課題を解決するため、我々はInteractCompを提案します。これは、検索エージェントがクエリの曖昧性を認識し、検索中に能動的に対話して解決できるかを評価するベンチマークです。
「検証容易性」と「対話による曖昧性解消」を原則として、我々はターゲット・ディストラクター手法を用いて9分野にわたる210の専門家監修済み質問を構築しました。これにより、対話を通じてのみ解決可能な真の曖昧性が創出されます。17のモデルを評価した結果、驚くべき欠陥が明らかになりました:完全な文脈が与えられた場合の精度71.50%に対し、最高性能モデルでも精度は13.73%に留まり、推論能力の欠如ではなく体系的な過信が原因であることが判明しました。強制的な対話を導入すると劇的な改善が見られ、現在の戦略では活かされていない潜在能力が存在することが実証されました。
経時的分析により、対話能力が15ヶ月間停滞する一方、検索性能は7倍向上したことが明らかになり、重大な盲点が浮き彫りになりました。検索タスクに内在する即時フィードバック特性とこの停滞を考慮すると、InteractCompは検索エージェントの対話能力を評価し訓練するための貴重なリソースとなります。コードはhttps://github.com/FoundationAgents/InteractComp で公開されています。
English
Language agents have demonstrated remarkable potential in web search and
information retrieval. However, these search agents assume user queries are
complete and unambiguous, an assumption that diverges from reality where users
begin with incomplete queries requiring clarification through interaction. Yet
most agents lack interactive mechanisms during the search process, and existing
benchmarks cannot assess this capability. To address this gap, we introduce
InteractComp, a benchmark designed to evaluate whether search agents can
recognize query ambiguity and actively interact to resolve it during search.
Following the principle of easy to verify, interact to disambiguate, we
construct 210 expert-curated questions across 9 domains through a
target-distractor methodology that creates genuine ambiguity resolvable only
through interaction. Evaluation of 17 models reveals striking failure: the best
model achieves only 13.73% accuracy despite 71.50% with complete context,
exposing systematic overconfidence rather than reasoning deficits. Forced
interaction produces dramatic gains, demonstrating latent capability current
strategies fail to engage. Longitudinal analysis shows interaction capabilities
stagnated over 15 months while search performance improved seven-fold,
revealing a critical blind spot. This stagnation, coupled with the immediate
feedback inherent to search tasks, makes InteractComp a valuable resource for
both evaluating and training interaction capabilities in search agents. The
code is available at https://github.com/FoundationAgents/InteractComp.