τ^2-Bench: Avaliação de Agentes Conversacionais em um Ambiente de Controle Duplo
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment
June 9, 2025
Autores: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI
Resumo
Os benchmarks existentes para agentes de IA conversacionais simulam ambientes de controle único, onde apenas o agente de IA pode usar ferramentas para interagir com o mundo, enquanto o usuário permanece como um provedor passivo de informações. Isso difere de cenários do mundo real, como suporte técnico, onde os usuários precisam participar ativamente na modificação do estado do mundo (compartilhado). Para abordar essa lacuna, introduzimos o tau^2-bench, com quatro contribuições principais:
1) Um novo domínio de controle duplo em Telecom modelado como um Dec-POMDP, onde tanto o agente quanto o usuário utilizam ferramentas para agir em um ambiente compartilhado e dinâmico que testa tanto a coordenação quanto a comunicação do agente,
2) Um gerador de tarefas composicional que cria programaticamente tarefas diversas e verificáveis a partir de componentes atômicos, garantindo cobertura do domínio e complexidade controlada,
3) Um simulador de usuário confiável, fortemente acoplado ao ambiente, cujo comportamento é limitado por ferramentas e estados observáveis, melhorando a fidelidade da simulação,
4) Análise detalhada do desempenho do agente por meio de múltiplas ablações, incluindo a separação de erros decorrentes de raciocínio versus comunicação/coordenação.
Em particular, nossos experimentos mostram quedas significativas de desempenho quando os agentes passam de um cenário sem usuário para um de controle duplo, destacando os desafios de orientar os usuários. No geral, o tau^2-bench fornece um ambiente controlado para testar agentes que devem tanto raciocinar de forma eficaz quanto guiar as ações dos usuários.
English
Existing benchmarks for conversational AI agents simulate single-control
environments, where only the AI agent can use tools to interact with the world,
while the user remains a passive information provider. This differs from
real-world scenarios like technical support, where users need to actively
participate in modifying the state of the (shared) world. In order to address
this gap, we introduce tau^2-bench, with four key contributions:
1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both
agent and user make use of tools to act in a shared, dynamic environment that
tests both agent coordination and communication,
2) A compositional task generator that programmatically creates diverse,
verifiable tasks from atomic components, ensuring domain coverage and
controlled complexity,
3) A reliable user simulator tightly coupled with the environment, whose
behavior is constrained by tools and observable states, improving simulation
fidelity,
4) Fine-grained analysis of agent performance through multiple ablations
including separating errors arising from reasoning vs
communication/coordination.
In particular, our experiments show significant performance drops when agents
shift from no-user to dual-control, highlighting the challenges of guiding
users. Overall, tau^2-bench provides a controlled testbed for agents that
must both reason effectively and guide user actions.