ChatPaper.aiChatPaper

InteractComp: 모호한 질의를 사용한 검색 에이전트 평가

InteractComp: Evaluating Search Agents With Ambiguous Queries

October 28, 2025
저자: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI

초록

언어 에이전트는 웹 검색 및 정보 검색 분야에서 뛰어난 잠재력을 입증해왔습니다. 그러나 이러한 검색 에이전트들은 사용자 질의가 완전하고 명확하다는 가정 하에 작동하는데, 이는 실제로 사용자가 불완전한 질의로 시작하여 상호작용을 통해 명확화가 필요한 현실과 괴리됩니다. 그럼에도 대부분의 에이전트는 검색 과정 중 상호작용 메커니즘을 갖추지 못했으며, 기존 벤치마크는 이러한 능력을 평가할 수 없습니다. 이러한 격차를 해결하기 위해 우리는 검색 에이전트가 질의의 모호성을 인지하고 검색 중 이를 해결하기 위해 능동적으로 상호작용할 수 있는지 평가하기 위해 설계된 벤치마크인 InteractComp를 소개합니다. '쉽게 검증 가능하고, 상호작용으로 명확화한다'는 원칙에 따라, 우리는 상호작용을 통해서만 해결 가능한 진정한 모호성을 생성하는 타겟-방해 요소 방법론을 통해 9개 도메인에 걸친 전문가 검수 질문 210개를 구성했습니다. 17개 모델 평가 결과 놀라운 실패가 드러났습니다: 최고 성능 모델은 완전한 맥락이 제공될 때 71.50%의 정확도를 보였음에도 불구하고, 상호작용 조건에서 단 13.73%의 정확도만 달성하여 추론 능력 결핍이 아닌 체계적인 과신을暴露했습니다. 강제 상호작용은 극적인 성능 향상을 가져와 현재 전략이 활용하지 못하는 잠재 능력이 존재함을 입증했습니다. 종단 분석은 15개월 이상에 걸쳐 상호작용 능력이 정체된 반면 검색 성능은 7배나 향상되어 중요한 맹점이 있음을 보여줍니다. 이러한 정체와 검색 작업에 내재된 즉각적인 피드백 특성은 InteractComp가 검색 에이전트의 상호작용 능력을 평가하고 훈련시키는 데 모두 유용한 자원이 되게 합니다. 코드는 https://github.com/FoundationAgents/InteractComp에서 이용 가능합니다.
English
Language agents have demonstrated remarkable potential in web search and information retrieval. However, these search agents assume user queries are complete and unambiguous, an assumption that diverges from reality where users begin with incomplete queries requiring clarification through interaction. Yet most agents lack interactive mechanisms during the search process, and existing benchmarks cannot assess this capability. To address this gap, we introduce InteractComp, a benchmark designed to evaluate whether search agents can recognize query ambiguity and actively interact to resolve it during search. Following the principle of easy to verify, interact to disambiguate, we construct 210 expert-curated questions across 9 domains through a target-distractor methodology that creates genuine ambiguity resolvable only through interaction. Evaluation of 17 models reveals striking failure: the best model achieves only 13.73% accuracy despite 71.50% with complete context, exposing systematic overconfidence rather than reasoning deficits. Forced interaction produces dramatic gains, demonstrating latent capability current strategies fail to engage. Longitudinal analysis shows interaction capabilities stagnated over 15 months while search performance improved seven-fold, revealing a critical blind spot. This stagnation, coupled with the immediate feedback inherent to search tasks, makes InteractComp a valuable resource for both evaluating and training interaction capabilities in search agents. The code is available at https://github.com/FoundationAgents/InteractComp.
PDF962December 1, 2025