InteractComp: Evaluatie van zoekagenten met dubbelzinnige zoekopdrachten
InteractComp: Evaluating Search Agents With Ambiguous Queries
October 28, 2025
Auteurs: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI
Samenvatting
Taalagentschappen hebben een opmerkelijk potentieel getoond in webzoekopdrachten en informatievergaring. Echter gaan deze zoekagentschappen ervan uit dat gebruikersvragen compleet en eenduidig zijn, een aanname die afwijkt van de realiteit waarin gebruikers starten met onvolledige vragen die verduidelijking vereisen via interactie. Toch beschikken de meeste agentschappen niet over interactieve mechanismen tijdens het zoekproces, en bestaande benchmarks kunnen deze capaciteit niet beoordelen. Om deze leemte te adresseren, introduceren we InteractComp, een benchmark ontworpen om te evalueren of zoekagentschappen query-ambiguïteit kunnen herkennen en actief kunnen interacteren om deze tijdens het zoeken op te lossen. Volgens het principe van eenvoudig te verifiëren, interacteren om te disambigueren, construeren we 210 expert-gecurateerde vragen over 9 domeinen via een target-distractor methodologie die echte ambiguïteit creëert die alleen via interactie oplosbaar is. Evaluatie van 17 modellen onthult een opvallend falen: het beste model behaalt slechts 13,73% nauwkeurigheid ondanks 71,50% met volledige context, wat systematische overmoed blootlegt in plaats van redeneertekorten. Geforceerde interactie levert dramatische verbeteringen op, wat latente capaciteiten aantoont die huidige strategieën niet benutten. Longitudinale analyse toont aan dat interactiecapaciteiten over 15 maanden stagneerden terwijl zoekprestaties zevenvoudig verbeterden, wat een kritieke blinde vlek onthult. Deze stagnatie, gekoppeld aan de inherente directe feedback van zoektaken, maakt InteractComp een waardevolle bron voor zowel evaluatie als training van interactiecapaciteiten in zoekagentschappen. De code is beschikbaar op https://github.com/FoundationAgents/InteractComp.
English
Language agents have demonstrated remarkable potential in web search and
information retrieval. However, these search agents assume user queries are
complete and unambiguous, an assumption that diverges from reality where users
begin with incomplete queries requiring clarification through interaction. Yet
most agents lack interactive mechanisms during the search process, and existing
benchmarks cannot assess this capability. To address this gap, we introduce
InteractComp, a benchmark designed to evaluate whether search agents can
recognize query ambiguity and actively interact to resolve it during search.
Following the principle of easy to verify, interact to disambiguate, we
construct 210 expert-curated questions across 9 domains through a
target-distractor methodology that creates genuine ambiguity resolvable only
through interaction. Evaluation of 17 models reveals striking failure: the best
model achieves only 13.73% accuracy despite 71.50% with complete context,
exposing systematic overconfidence rather than reasoning deficits. Forced
interaction produces dramatic gains, demonstrating latent capability current
strategies fail to engage. Longitudinal analysis shows interaction capabilities
stagnated over 15 months while search performance improved seven-fold,
revealing a critical blind spot. This stagnation, coupled with the immediate
feedback inherent to search tasks, makes InteractComp a valuable resource for
both evaluating and training interaction capabilities in search agents. The
code is available at https://github.com/FoundationAgents/InteractComp.