τ^2-Bench: Оценка диалоговых агентов в среде с двойным управлением
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment
June 9, 2025
Авторы: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI
Аннотация
Существующие эталонные тесты для диалоговых ИИ-агентов моделируют среды с единым управлением, где только ИИ-агент может использовать инструменты для взаимодействия с миром, в то время как пользователь остается пассивным поставщиком информации. Это отличается от реальных сценариев, таких как техническая поддержка, где пользователям необходимо активно участвовать в изменении состояния (общего) мира. Чтобы устранить этот разрыв, мы представляем tau^2-bench, который включает четыре ключевых аспекта:
1) Новую телекоммуникационную область с двойным управлением, смоделированную как Dec-POMDP, где и агент, и пользователь используют инструменты для действий в общей динамической среде, что проверяет как координацию, так и коммуникацию агента,
2) Композиционный генератор задач, который программно создает разнообразные, проверяемые задачи из атомарных компонентов, обеспечивая охват области и контролируемую сложность,
3) Надежный симулятор пользователя, тесно связанный с окружением, чье поведение ограничено инструментами и наблюдаемыми состояниями, что повышает точность симуляции,
4) Детальный анализ производительности агента с помощью множественных абляций, включая разделение ошибок, возникающих из-за рассуждений, и ошибок коммуникации/координации.
В частности, наши эксперименты показывают значительное снижение производительности, когда агенты переходят от режима без пользователя к двойному управлению, что подчеркивает сложности в руководстве пользователями. В целом, tau^2-bench предоставляет контролируемую тестовую среду для агентов, которые должны как эффективно рассуждать, так и направлять действия пользователей.
English
Existing benchmarks for conversational AI agents simulate single-control
environments, where only the AI agent can use tools to interact with the world,
while the user remains a passive information provider. This differs from
real-world scenarios like technical support, where users need to actively
participate in modifying the state of the (shared) world. In order to address
this gap, we introduce tau^2-bench, with four key contributions:
1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both
agent and user make use of tools to act in a shared, dynamic environment that
tests both agent coordination and communication,
2) A compositional task generator that programmatically creates diverse,
verifiable tasks from atomic components, ensuring domain coverage and
controlled complexity,
3) A reliable user simulator tightly coupled with the environment, whose
behavior is constrained by tools and observable states, improving simulation
fidelity,
4) Fine-grained analysis of agent performance through multiple ablations
including separating errors arising from reasoning vs
communication/coordination.
In particular, our experiments show significant performance drops when agents
shift from no-user to dual-control, highlighting the challenges of guiding
users. Overall, tau^2-bench provides a controlled testbed for agents that
must both reason effectively and guide user actions.