InteractComp: Bewertung von Suchagenten bei mehrdeutigen Anfragen
InteractComp: Evaluating Search Agents With Ambiguous Queries
October 28, 2025
papers.authors: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI
papers.abstract
Sprachagenten haben ein bemerkenswertes Potenzial bei der Websuche und Informationsbeschaffung gezeigt. Allerdings gehen diese Suchagenten davon aus, dass Nutzeranfragen vollständig und eindeutig sind – eine Annahme, die sich von der Realität unterscheidet, in der Nutzer mit unvollständigen Anfragen beginnen, die Klärung durch Interaktion erfordern. Dennoch verfügen die meisten Agenten über keine interaktiven Mechanismen während des Suchprozesses, und bestehende Benchmark-Tests können diese Fähigkeit nicht bewerten. Um diese Lücke zu schließen, stellen wir InteractComp vor, einen Benchmark-Test, der entwickelt wurde, um zu bewerten, ob Suchagenten Mehrdeutigkeiten in Anfragen erkennen und aktiv durch Interaktion während der Suche auflösen können.
Gemäß dem Prinzip „einfach zu verifizieren, interaktiv zu disambiguieren“ haben wir 210 von Experten kuratierte Fragen aus 9 Domänen mithilfe einer Target-Distractor-Methodik erstellt, die echte Mehrdeutigkeiten erzeugt, die nur durch Interaktion aufgelöst werden können. Die Auswertung von 17 Modellen zeigt ein frappierendes Versagen: Das beste Modell erreicht lediglich 13,73 % Genauigkeit, obwohl es mit vollständigem Kontext 71,50 % erreicht. Dies offenbart systematische Selbstüberschätzung statt reasoning-Defizite. Erzwungene Interaktion führt zu dramatischen Verbesserungen, was latente Fähigkeiten zeigt, die aktuelle Strategien nicht nutzen. Eine Langzeitanalyse zeigt, dass die Interaktionsfähigkeiten über 15 Monate stagnierten, während sich die Suchleistung versiebenfachte – ein kritischer blinder Fleck. Diese Stagnation, gepaart mit der inhärenten Sofortrückmeldung bei Suchaufgaben, macht InteractComp zu einer wertvollen Ressource sowohl für die Bewertung als auch das Training von Interaktionsfähigkeiten in Suchagenten.
Der Code ist verfügbar unter https://github.com/FoundationAgents/InteractComp.
English
Language agents have demonstrated remarkable potential in web search and
information retrieval. However, these search agents assume user queries are
complete and unambiguous, an assumption that diverges from reality where users
begin with incomplete queries requiring clarification through interaction. Yet
most agents lack interactive mechanisms during the search process, and existing
benchmarks cannot assess this capability. To address this gap, we introduce
InteractComp, a benchmark designed to evaluate whether search agents can
recognize query ambiguity and actively interact to resolve it during search.
Following the principle of easy to verify, interact to disambiguate, we
construct 210 expert-curated questions across 9 domains through a
target-distractor methodology that creates genuine ambiguity resolvable only
through interaction. Evaluation of 17 models reveals striking failure: the best
model achieves only 13.73% accuracy despite 71.50% with complete context,
exposing systematic overconfidence rather than reasoning deficits. Forced
interaction produces dramatic gains, demonstrating latent capability current
strategies fail to engage. Longitudinal analysis shows interaction capabilities
stagnated over 15 months while search performance improved seven-fold,
revealing a critical blind spot. This stagnation, coupled with the immediate
feedback inherent to search tasks, makes InteractComp a valuable resource for
both evaluating and training interaction capabilities in search agents. The
code is available at https://github.com/FoundationAgents/InteractComp.