τ^2-Bench: Avaliação de Agentes Conversacionais em um Ambiente de Controle Duplo

Resumo

Os benchmarks existentes para agentes de IA conversacionais simulam ambientes de controle único, onde apenas o agente de IA pode usar ferramentas para interagir com o mundo, enquanto o usuário permanece como um provedor passivo de informações. Isso difere de cenários do mundo real, como suporte técnico, onde os usuários precisam participar ativamente na modificação do estado do mundo (compartilhado). Para abordar essa lacuna, introduzimos o tau^2-bench, com quatro contribuições principais: 1) Um novo domínio de controle duplo em Telecom modelado como um Dec-POMDP, onde tanto o agente quanto o usuário utilizam ferramentas para agir em um ambiente compartilhado e dinâmico que testa tanto a coordenação quanto a comunicação do agente, 2) Um gerador de tarefas composicional que cria programaticamente tarefas diversas e verificáveis a partir de componentes atômicos, garantindo cobertura do domínio e complexidade controlada, 3) Um simulador de usuário confiável, fortemente acoplado ao ambiente, cujo comportamento é limitado por ferramentas e estados observáveis, melhorando a fidelidade da simulação, 4) Análise detalhada do desempenho do agente por meio de múltiplas ablações, incluindo a separação de erros decorrentes de raciocínio versus comunicação/coordenação. Em particular, nossos experimentos mostram quedas significativas de desempenho quando os agentes passam de um cenário sem usuário para um de controle duplo, destacando os desafios de orientar os usuários. No geral, o tau^2-bench fornece um ambiente controlado para testar agentes que devem tanto raciocinar de forma eficaz quanto guiar as ações dos usuários.

English

Existing benchmarks for conversational AI agents simulate single-control environments, where only the AI agent can use tools to interact with the world, while the user remains a passive information provider. This differs from real-world scenarios like technical support, where users need to actively participate in modifying the state of the (shared) world. In order to address this gap, we introduce tau^2-bench, with four key contributions: 1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both agent and user make use of tools to act in a shared, dynamic environment that tests both agent coordination and communication, 2) A compositional task generator that programmatically creates diverse, verifiable tasks from atomic components, ensuring domain coverage and controlled complexity, 3) A reliable user simulator tightly coupled with the environment, whose behavior is constrained by tools and observable states, improving simulation fidelity, 4) Fine-grained analysis of agent performance through multiple ablations including separating errors arising from reasoning vs communication/coordination. In particular, our experiments show significant performance drops when agents shift from no-user to dual-control, highlighting the challenges of guiding users. Overall, tau^2-bench provides a controlled testbed for agents that must both reason effectively and guide user actions.

τ^2-Bench: Avaliação de Agentes Conversacionais em um Ambiente de Controle Duplo

τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment

Resumo

Support