ChatPaper.aiChatPaper

τ^2-Bench: Valutazione degli Agenti Conversazionali in un Ambiente a Doppio Controllo

τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment

June 9, 2025
Autori: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI

Abstract

I benchmark esistenti per gli agenti di intelligenza artificiale conversazionale simulano ambienti a controllo singolo, in cui solo l'agente AI può utilizzare strumenti per interagire con il mondo, mentre l'utente rimane un fornitore passivo di informazioni. Ciò differisce dagli scenari del mondo reale come il supporto tecnico, dove gli utenti devono partecipare attivamente alla modifica dello stato del mondo (condiviso). Per colmare questa lacuna, introduciamo tau^2-bench, con quattro contributi chiave: 1) Un nuovo dominio di controllo duale Telecom modellato come un Dec-POMDP, in cui sia l'agente che l'utente utilizzano strumenti per agire in un ambiente condiviso e dinamico che mette alla prova sia il coordinamento che la comunicazione dell'agente, 2) Un generatore di task composizionale che crea programmaticamente task diversificati e verificabili da componenti atomiche, garantendo copertura del dominio e complessità controllata, 3) Un simulatore di utente affidabile strettamente accoppiato all'ambiente, il cui comportamento è vincolato da strumenti e stati osservabili, migliorando la fedeltà della simulazione, 4) Un'analisi granulare delle prestazioni dell'agente attraverso multiple ablazioni, inclusa la separazione degli errori derivanti dal ragionamento rispetto a quelli di comunicazione/coordinamento. In particolare, i nostri esperimenti mostrano significativi cali di prestazione quando gli agenti passano da un contesto senza utente a uno a controllo duale, evidenziando le sfide nel guidare gli utenti. Nel complesso, tau^2-bench fornisce un banco di prova controllato per agenti che devono sia ragionare efficacemente sia guidare le azioni degli utenti.
English
Existing benchmarks for conversational AI agents simulate single-control environments, where only the AI agent can use tools to interact with the world, while the user remains a passive information provider. This differs from real-world scenarios like technical support, where users need to actively participate in modifying the state of the (shared) world. In order to address this gap, we introduce tau^2-bench, with four key contributions: 1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both agent and user make use of tools to act in a shared, dynamic environment that tests both agent coordination and communication, 2) A compositional task generator that programmatically creates diverse, verifiable tasks from atomic components, ensuring domain coverage and controlled complexity, 3) A reliable user simulator tightly coupled with the environment, whose behavior is constrained by tools and observable states, improving simulation fidelity, 4) Fine-grained analysis of agent performance through multiple ablations including separating errors arising from reasoning vs communication/coordination. In particular, our experiments show significant performance drops when agents shift from no-user to dual-control, highlighting the challenges of guiding users. Overall, tau^2-bench provides a controlled testbed for agents that must both reason effectively and guide user actions.
PDF42June 10, 2025