ChatPaper.aiChatPaper

InteractComp: Valutazione degli Agenti di Ricerca con Query Ambigue

InteractComp: Evaluating Search Agents With Ambiguous Queries

October 28, 2025
Autori: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI

Abstract

Gli agenti linguistici hanno dimostrato un potenziale notevole nella ricerca web e nel recupero delle informazioni. Tuttavia, questi agenti di ricerca presuppongono che le query degli utenti siano complete e non ambigue, un'ipotesi che si discosta dalla realtà in cui gli utenti iniziano con query incomplete che richiedono chiarimenti tramite interazione. Eppure la maggior parte degli agenti manca di meccanismi interattivi durante il processo di ricerca, e i benchmark esistenti non possono valutare questa capacità. Per colmare questa lacuna, introduciamo InteractComp, un benchmark progettato per valutare se gli agenti di ricerca riescano a riconoscere l'ambiguità delle query e interagire attivamente per risolverla durante la ricerca. Seguendo il principio di facile da verificare, interagire per disambiguare, costruiamo 210 questioni curate da esperti in 9 domini attraverso una metodologia target-distrattore che crea ambiguità genuine risolvibili solo tramite interazione. La valutazione di 17 modelli rivela un fallimento eclatante: il modello migliore raggiunge solo il 13,73% di accuratezza nonostante il 71,50% con contesto completo, rivelando una sovraconfidenza sistematica piuttosto che deficit di ragionamento. L'interazione forzata produce guadagni drammatici, dimostrando capacità latenti che le strategie attuali non riescono a coinvolgere. L'analisi longitudinale mostra capacità interattive stagnanti per oltre 15 mesi mentre le prestazioni di ricerca sono migliorate di sette volte, rivelando un punto cieco critico. Questa stagnazione, unita al feedback immediato intrinseco dei compiti di ricerca, rende InteractComp una risorsa preziosa sia per valutare che per addestrare le capacità interattive negli agenti di ricerca. Il codice è disponibile all'indirizzo https://github.com/FoundationAgents/InteractComp.
English
Language agents have demonstrated remarkable potential in web search and information retrieval. However, these search agents assume user queries are complete and unambiguous, an assumption that diverges from reality where users begin with incomplete queries requiring clarification through interaction. Yet most agents lack interactive mechanisms during the search process, and existing benchmarks cannot assess this capability. To address this gap, we introduce InteractComp, a benchmark designed to evaluate whether search agents can recognize query ambiguity and actively interact to resolve it during search. Following the principle of easy to verify, interact to disambiguate, we construct 210 expert-curated questions across 9 domains through a target-distractor methodology that creates genuine ambiguity resolvable only through interaction. Evaluation of 17 models reveals striking failure: the best model achieves only 13.73% accuracy despite 71.50% with complete context, exposing systematic overconfidence rather than reasoning deficits. Forced interaction produces dramatic gains, demonstrating latent capability current strategies fail to engage. Longitudinal analysis shows interaction capabilities stagnated over 15 months while search performance improved seven-fold, revealing a critical blind spot. This stagnation, coupled with the immediate feedback inherent to search tasks, makes InteractComp a valuable resource for both evaluating and training interaction capabilities in search agents. The code is available at https://github.com/FoundationAgents/InteractComp.
PDF962December 1, 2025