InteractComp : Évaluation des agents de recherche avec des requêtes ambiguës
InteractComp: Evaluating Search Agents With Ambiguous Queries
October 28, 2025
papers.authors: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI
papers.abstract
Les agents linguistiques ont démontré un potentiel remarquable dans la recherche web et la récupération d'information. Cependant, ces agents de recherche supposent que les requêtes utilisateur sont complètes et non ambiguës, une hypothèse qui s'éloigne de la réalité où les utilisateurs commencent par des requêtes incomplètes nécessitant une clarification par interaction. Pourtant, la plupart des agents manquent de mécanismes interactifs durant le processus de recherche, et les benchmarks existants ne peuvent évaluer cette capacité. Pour combler cette lacune, nous présentons InteractComp, un benchmark conçu pour évaluer si les agents de recherche peuvent reconnaître l'ambiguïté des requêtes et interagir activement pour la résoudre durant la recherche. Suivant le principe "facile à vérifier, interagir pour désambiguïser", nous construisons 210 questions expertes réparties sur 9 domaines via une méthodologie cible-distracteur créant une ambiguïté réelle résoluble uniquement par interaction. L'évaluation de 17 modèles révèle un échec frappant : le meilleur modèle n'atteint que 13,73% de précision contre 71,50% avec un contexte complet, exposant une surconfiance systémique plutôt que des déficits de raisonnement. L'interaction forcée produit des gains spectaculaires, démontrant des capacités latentes que les stratégies actuelles n'exploitent pas. L'analyse longitudinale montre que les capacités d'interaction stagnent depuis 15 mois tandis que les performances de recherche ont été multipliées par sept, révélant un angle mort critique. Cette stagnation, couplée au retour immédiat inhérent aux tâches de recherche, fait d'InteractComp une ressource précieuse pour évaluer et entraîner les capacités d'interaction des agents de recherche. Le code est disponible à l'adresse https://github.com/FoundationAgents/InteractComp.
English
Language agents have demonstrated remarkable potential in web search and
information retrieval. However, these search agents assume user queries are
complete and unambiguous, an assumption that diverges from reality where users
begin with incomplete queries requiring clarification through interaction. Yet
most agents lack interactive mechanisms during the search process, and existing
benchmarks cannot assess this capability. To address this gap, we introduce
InteractComp, a benchmark designed to evaluate whether search agents can
recognize query ambiguity and actively interact to resolve it during search.
Following the principle of easy to verify, interact to disambiguate, we
construct 210 expert-curated questions across 9 domains through a
target-distractor methodology that creates genuine ambiguity resolvable only
through interaction. Evaluation of 17 models reveals striking failure: the best
model achieves only 13.73% accuracy despite 71.50% with complete context,
exposing systematic overconfidence rather than reasoning deficits. Forced
interaction produces dramatic gains, demonstrating latent capability current
strategies fail to engage. Longitudinal analysis shows interaction capabilities
stagnated over 15 months while search performance improved seven-fold,
revealing a critical blind spot. This stagnation, coupled with the immediate
feedback inherent to search tasks, makes InteractComp a valuable resource for
both evaluating and training interaction capabilities in search agents. The
code is available at https://github.com/FoundationAgents/InteractComp.