InteractComp: Avaliando Agentes de Busca com Consultas Ambíguas
InteractComp: Evaluating Search Agents With Ambiguous Queries
October 28, 2025
Autores: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI
Resumo
Os agentes de linguagem têm demonstrado potencial notável na pesquisa na web e recuperação de informações. No entanto, esses agentes de pesquisa assumem que as consultas dos usuários são completas e inequívocas, uma premissa que diverge da realidade, onde os usuários começam com consultas incompletas que exigem esclarecimentos por meio de interação. Ainda assim, a maioria dos agentes carece de mecanismos interativos durante o processo de pesquisa, e os benchmarks existentes não conseguem avaliar essa capacidade. Para preencher essa lacuna, introduzimos o InteractComp, um benchmark projetado para avaliar se os agentes de pesquisa conseguem reconhecer ambiguidades nas consultas e interagir ativamente para resolvê-las durante a pesquisa. Seguindo o princípio de fácil verificação e interação para desambiguar, construímos 210 questões curadas por especialistas em 9 domínios através de uma metodologia de alvo-distrator que cria ambiguidade genuína, resolvível apenas por meio de interação. A avaliação de 17 modelos revela uma falha impressionante: o melhor modelo atinge apenas 13,73% de precisão, apesar de alcançar 71,50% com contexto completo, expondo overconfidence sistemático em vez de déficits de raciocínio. A interação forçada produz ganhos dramáticos, demonstrando capacidade latente que as estratégias atuais não conseguem engajar. A análise longitudinal mostra que as capacidades de interação estagnaram por mais de 15 meses, enquanto o desempenho em pesquisa melhorou sete vezes, revelando um ponto cego crítico. Essa estagnação, aliada ao feedback imediato inerente às tarefas de pesquisa, torna o InteractComp um recurso valioso tanto para avaliar quanto para treinar capacidades de interação em agentes de pesquisa. O código está disponível em https://github.com/FoundationAgents/InteractComp.
English
Language agents have demonstrated remarkable potential in web search and
information retrieval. However, these search agents assume user queries are
complete and unambiguous, an assumption that diverges from reality where users
begin with incomplete queries requiring clarification through interaction. Yet
most agents lack interactive mechanisms during the search process, and existing
benchmarks cannot assess this capability. To address this gap, we introduce
InteractComp, a benchmark designed to evaluate whether search agents can
recognize query ambiguity and actively interact to resolve it during search.
Following the principle of easy to verify, interact to disambiguate, we
construct 210 expert-curated questions across 9 domains through a
target-distractor methodology that creates genuine ambiguity resolvable only
through interaction. Evaluation of 17 models reveals striking failure: the best
model achieves only 13.73% accuracy despite 71.50% with complete context,
exposing systematic overconfidence rather than reasoning deficits. Forced
interaction produces dramatic gains, demonstrating latent capability current
strategies fail to engage. Longitudinal analysis shows interaction capabilities
stagnated over 15 months while search performance improved seven-fold,
revealing a critical blind spot. This stagnation, coupled with the immediate
feedback inherent to search tasks, makes InteractComp a valuable resource for
both evaluating and training interaction capabilities in search agents. The
code is available at https://github.com/FoundationAgents/InteractComp.