τ^2-Bench : Évaluation des agents conversationnels dans un environnement à double contrôle
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment
June 9, 2025
Auteurs: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI
Résumé
Les benchmarks existants pour les agents conversationnels d'IA simulent des environnements à contrôle unique, où seul l'agent IA peut utiliser des outils pour interagir avec le monde, tandis que l'utilisateur reste un fournisseur d'informations passif. Cela diffère des scénarios réels comme le support technique, où les utilisateurs doivent participer activement à la modification de l'état du monde (partagé). Pour combler cette lacune, nous introduisons tau^2-bench, avec quatre contributions clés :
1) Un nouveau domaine de double contrôle dans le secteur des télécommunications modélisé comme un Dec-POMDP, où à la fois l'agent et l'utilisateur utilisent des outils pour agir dans un environnement dynamique partagé qui teste à la fois la coordination et la communication de l'agent,
2) Un générateur de tâches compositionnel qui crée programmatiquement des tâches diverses et vérifiables à partir de composants atomiques, garantissant une couverture du domaine et une complexité contrôlée,
3) Un simulateur d'utilisateur fiable étroitement couplé à l'environnement, dont le comportement est contraint par les outils et les états observables, améliorant la fidélité de la simulation,
4) Une analyse fine des performances de l'agent à travers plusieurs ablations, y compris la séparation des erreurs provenant du raisonnement par rapport à la communication/coordination.
En particulier, nos expériences montrent des baisses significatives de performance lorsque les agents passent d'un environnement sans utilisateur à un double contrôle, mettant en évidence les défis de guider les utilisateurs. Globalement, tau^2-bench fournit un banc d'essai contrôlé pour les agents qui doivent à la fois raisonner efficacement et guider les actions des utilisateurs.
English
Existing benchmarks for conversational AI agents simulate single-control
environments, where only the AI agent can use tools to interact with the world,
while the user remains a passive information provider. This differs from
real-world scenarios like technical support, where users need to actively
participate in modifying the state of the (shared) world. In order to address
this gap, we introduce tau^2-bench, with four key contributions:
1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both
agent and user make use of tools to act in a shared, dynamic environment that
tests both agent coordination and communication,
2) A compositional task generator that programmatically creates diverse,
verifiable tasks from atomic components, ensuring domain coverage and
controlled complexity,
3) A reliable user simulator tightly coupled with the environment, whose
behavior is constrained by tools and observable states, improving simulation
fidelity,
4) Fine-grained analysis of agent performance through multiple ablations
including separating errors arising from reasoning vs
communication/coordination.
In particular, our experiments show significant performance drops when agents
shift from no-user to dual-control, highlighting the challenges of guiding
users. Overall, tau^2-bench provides a controlled testbed for agents that
must both reason effectively and guide user actions.