InteractComp: Evaluación de Agentes de Búsqueda con Consultas Ambiguas
InteractComp: Evaluating Search Agents With Ambiguous Queries
October 28, 2025
Autores: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI
Resumen
Los agentes lingüísticos han demostrado un potencial notable en la búsqueda web y la recuperación de información. Sin embargo, estos agentes de búsqueda asumen que las consultas de los usuarios son completas y inequívocas, una suposición que diverge de la realidad, donde los usuarios comienzan con consultas incompletas que requieren aclaración mediante interacción. No obstante, la mayoría de los agentes carecen de mecanismos interactivos durante el proceso de búsqueda, y los puntos de referencia existentes no pueden evaluar esta capacidad. Para abordar esta brecha, presentamos InteractComp, un punto de referencia diseñado para evaluar si los agentes de búsqueda pueden reconocer la ambigüedad de las consultas e interactuar activamente para resolverla durante la búsqueda. Siguiendo el principio de fácil verificación e interacción para desambiguar, construimos 210 preguntas curadas por expertos en 9 dominios mediante una metodología de objetivo-distractor que crea una ambigüedad genuina solo resoluble mediante interacción. La evaluación de 17 modelos revela un fracaso sorprendente: el mejor modelo alcanza solo un 13.73% de precisión a pesar de lograr un 71.50% con contexto completo, exponiendo una sobreconfianza sistemática en lugar de déficits de razonamiento. La interacción forzada produce ganancias dramáticas, demostrando capacidades latentes que las estrategias actuales no logran activar. El análisis longitudinal muestra que las capacidades de interacción se han estancado durante 15 meses mientras el rendimiento en búsqueda mejoró siete veces, revelando un punto ciego crítico. Este estancamiento, unido a la retroalimentación inmediata inherente a las tareas de búsqueda, convierte a InteractComp en un recurso valioso tanto para evaluar como para entrenar capacidades de interacción en agentes de búsqueda. El código está disponible en https://github.com/FoundationAgents/InteractComp.
English
Language agents have demonstrated remarkable potential in web search and
information retrieval. However, these search agents assume user queries are
complete and unambiguous, an assumption that diverges from reality where users
begin with incomplete queries requiring clarification through interaction. Yet
most agents lack interactive mechanisms during the search process, and existing
benchmarks cannot assess this capability. To address this gap, we introduce
InteractComp, a benchmark designed to evaluate whether search agents can
recognize query ambiguity and actively interact to resolve it during search.
Following the principle of easy to verify, interact to disambiguate, we
construct 210 expert-curated questions across 9 domains through a
target-distractor methodology that creates genuine ambiguity resolvable only
through interaction. Evaluation of 17 models reveals striking failure: the best
model achieves only 13.73% accuracy despite 71.50% with complete context,
exposing systematic overconfidence rather than reasoning deficits. Forced
interaction produces dramatic gains, demonstrating latent capability current
strategies fail to engage. Longitudinal analysis shows interaction capabilities
stagnated over 15 months while search performance improved seven-fold,
revealing a critical blind spot. This stagnation, coupled with the immediate
feedback inherent to search tasks, makes InteractComp a valuable resource for
both evaluating and training interaction capabilities in search agents. The
code is available at https://github.com/FoundationAgents/InteractComp.