InteractComp: Оценка поисковых агентов при обработке неоднозначных запросов
InteractComp: Evaluating Search Agents With Ambiguous Queries
October 28, 2025
Авторы: Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo
cs.AI
Аннотация
Языковые агенты продемонстрировали значительный потенциал в веб-поиске и информационном поиске. Однако эти поисковые агенты предполагают, что пользовательские запросы являются полными и однозначными — предположение, расходящееся с реальностью, где пользователи начинают с неполных запросов, требующих уточнения в процессе взаимодействия. При этом большинство агентов не имеют интерактивных механизмов в ходе поиска, а существующие бенчмарки не могут оценить эту способность. Для устранения данного пробела мы представляем InteractComp — бенчмарк, предназначенный для оценки того, могут ли поисковые агенты распознавать неоднозначность запроса и активно взаимодействовать для её устранения в процессе поиска. Следуя принципу «легко проверить, взаимодействовать для устранения неоднозначности», мы создали 210 экспертно отобранных вопросов по 9 доменам с помощью метода «цель-дистрактор», который создает genuine ambiguity, устранимую только через взаимодействие. Оценка 17 моделей выявила поразительный провал: лучшая модель достигает точности лишь 13,73% против 71,50% при полном контексте, что свидетельствует о систематической избыточной уверенности, а не о дефиците логического вывода. Принудительное взаимодействие дает резкий рост показателей, демонстрируя скрытые возможности, которые текущие стратегии не задействуют. Лонгитюдный анализ показывает стагнацию способностей к взаимодействию за 15 месяцев при семикратном улучшении поисковых показателей, выявляя критическое слепое пятно. Эта стагнация в сочетании с немедленной обратной связью, присущей поисковым задачам, делает InteractComp ценным ресурсом как для оценки, так и для обучения интерактивным способностям поисковых агентов. Код доступен по адресу https://github.com/FoundationAgents/InteractComp.
English
Language agents have demonstrated remarkable potential in web search and
information retrieval. However, these search agents assume user queries are
complete and unambiguous, an assumption that diverges from reality where users
begin with incomplete queries requiring clarification through interaction. Yet
most agents lack interactive mechanisms during the search process, and existing
benchmarks cannot assess this capability. To address this gap, we introduce
InteractComp, a benchmark designed to evaluate whether search agents can
recognize query ambiguity and actively interact to resolve it during search.
Following the principle of easy to verify, interact to disambiguate, we
construct 210 expert-curated questions across 9 domains through a
target-distractor methodology that creates genuine ambiguity resolvable only
through interaction. Evaluation of 17 models reveals striking failure: the best
model achieves only 13.73% accuracy despite 71.50% with complete context,
exposing systematic overconfidence rather than reasoning deficits. Forced
interaction produces dramatic gains, demonstrating latent capability current
strategies fail to engage. Longitudinal analysis shows interaction capabilities
stagnated over 15 months while search performance improved seven-fold,
revealing a critical blind spot. This stagnation, coupled with the immediate
feedback inherent to search tasks, makes InteractComp a valuable resource for
both evaluating and training interaction capabilities in search agents. The
code is available at https://github.com/FoundationAgents/InteractComp.