τ^2-Bench: Evaluatie van Conversatie-Agenten in een Dual-Control Omgeving
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment
June 9, 2025
Auteurs: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI
Samenvatting
Bestaande benchmarks voor conversatie-AI-agenten simuleren omgevingen met enkele controle, waarbij alleen de AI-agent tools kan gebruiken om met de wereld te interacteren, terwijl de gebruiker een passieve informatieverstrekker blijft. Dit verschilt van real-world scenario's zoals technische ondersteuning, waar gebruikers actief moeten deelnemen aan het wijzigen van de staat van de (gedeelde) wereld. Om dit gat te dichten, introduceren we tau^2-bench, met vier belangrijke bijdragen:
1) Een nieuw Telecom-domein met dubbele controle, gemodelleerd als een Dec-POMDP, waarbij zowel de agent als de gebruiker tools gebruiken om te handelen in een gedeelde, dynamische omgeving die zowel agentcoördinatie als communicatie test,
2) Een compositieve taakgenerator die programmatisch diverse, verifieerbare taken creëert uit atomische componenten, wat domeindekking en gecontroleerde complexiteit waarborgt,
3) Een betrouwbare gebruikerssimulator die nauw gekoppeld is aan de omgeving, waarvan het gedrag wordt beperkt door tools en waarneembare staten, wat de simulatiebetrouwbaarheid verbetert,
4) Gedetailleerde analyse van agentprestaties door middel van meerdere ablatie-experimenten, inclusief het scheiden van fouten die voortkomen uit redeneren versus communicatie/coördinatie.
In het bijzonder tonen onze experimenten significante prestatieverminderingen wanneer agenten overschakelen van geen-gebruiker naar dubbele controle, wat de uitdagingen benadrukt van het begeleiden van gebruikers. Over het geheel genomen biedt tau^2-bench een gecontroleerde testomgeving voor agenten die zowel effectief moeten redeneren als gebruikersacties moeten begeleiden.
English
Existing benchmarks for conversational AI agents simulate single-control
environments, where only the AI agent can use tools to interact with the world,
while the user remains a passive information provider. This differs from
real-world scenarios like technical support, where users need to actively
participate in modifying the state of the (shared) world. In order to address
this gap, we introduce tau^2-bench, with four key contributions:
1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both
agent and user make use of tools to act in a shared, dynamic environment that
tests both agent coordination and communication,
2) A compositional task generator that programmatically creates diverse,
verifiable tasks from atomic components, ensuring domain coverage and
controlled complexity,
3) A reliable user simulator tightly coupled with the environment, whose
behavior is constrained by tools and observable states, improving simulation
fidelity,
4) Fine-grained analysis of agent performance through multiple ablations
including separating errors arising from reasoning vs
communication/coordination.
In particular, our experiments show significant performance drops when agents
shift from no-user to dual-control, highlighting the challenges of guiding
users. Overall, tau^2-bench provides a controlled testbed for agents that
must both reason effectively and guide user actions.