τ^2-Bench: Evaluación de Agentes Conversacionales en un Entorno de Doble Control
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment
June 9, 2025
Autores: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI
Resumen
Los puntos de referencia existentes para los agentes de IA conversacional simulan entornos de control único, donde solo el agente de IA puede utilizar herramientas para interactuar con el mundo, mientras que el usuario permanece como un proveedor pasivo de información. Esto difiere de escenarios del mundo real, como el soporte técnico, donde los usuarios necesitan participar activamente en la modificación del estado del mundo (compartido). Para abordar esta brecha, presentamos tau^2-bench, con cuatro contribuciones clave:
1) Un nuevo dominio de control dual en Telecom modelado como un Dec-POMDP, donde tanto el agente como el usuario utilizan herramientas para actuar en un entorno compartido y dinámico que pone a prueba la coordinación y la comunicación del agente,
2) Un generador de tareas composicional que crea programáticamente tareas diversas y verificables a partir de componentes atómicos, asegurando cobertura del dominio y complejidad controlada,
3) Un simulador de usuario confiable estrechamente acoplado al entorno, cuyo comportamiento está limitado por herramientas y estados observables, mejorando la fidelidad de la simulación,
4) Un análisis detallado del rendimiento del agente a través de múltiples ablaciones, incluyendo la separación de errores derivados del razonamiento frente a la comunicación/coordinación.
En particular, nuestros experimentos muestran caídas significativas en el rendimiento cuando los agentes pasan de un entorno sin usuario a uno de control dual, destacando los desafíos de guiar a los usuarios. En general, tau^2-bench proporciona un entorno de prueba controlado para agentes que deben razonar de manera efectiva y guiar las acciones del usuario.
English
Existing benchmarks for conversational AI agents simulate single-control
environments, where only the AI agent can use tools to interact with the world,
while the user remains a passive information provider. This differs from
real-world scenarios like technical support, where users need to actively
participate in modifying the state of the (shared) world. In order to address
this gap, we introduce tau^2-bench, with four key contributions:
1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both
agent and user make use of tools to act in a shared, dynamic environment that
tests both agent coordination and communication,
2) A compositional task generator that programmatically creates diverse,
verifiable tasks from atomic components, ensuring domain coverage and
controlled complexity,
3) A reliable user simulator tightly coupled with the environment, whose
behavior is constrained by tools and observable states, improving simulation
fidelity,
4) Fine-grained analysis of agent performance through multiple ablations
including separating errors arising from reasoning vs
communication/coordination.
In particular, our experiments show significant performance drops when agents
shift from no-user to dual-control, highlighting the challenges of guiding
users. Overall, tau^2-bench provides a controlled testbed for agents that
must both reason effectively and guide user actions.