τ^2-Bench: Bewertung von Konversationsagenten in einer Dual-Control-Umgebung
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment
June 9, 2025
Autoren: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI
Zusammenfassung
Bestehende Benchmarks für konversationelle KI-Agenten simulieren Einzelkontroll-Umgebungen, in denen nur der KI-Agent Werkzeuge nutzen kann, um mit der Welt zu interagieren, während der Benutzer ein passiver Informationslieferant bleibt. Dies unterscheidet sich von realen Szenarien wie dem technischen Support, bei denen Benutzer aktiv an der Veränderung des Zustands der (geteilten) Welt teilnehmen müssen. Um diese Lücke zu schließen, führen wir tau^2-bench mit vier wesentlichen Beiträgen ein:
1) Eine neuartige Telekommunikations-Dualkontroll-Domäne, die als Dec-POMDP modelliert ist, in der sowohl der Agent als auch der Benutzer Werkzeuge nutzen, um in einer gemeinsamen, dynamischen Umgebung zu handeln, die sowohl die Koordination als auch die Kommunikation des Agents testet,
2) Ein kompositioneller Aufgaben-Generator, der programmatisch vielfältige, verifizierbare Aufgaben aus atomaren Komponenten erstellt und so die Domänenabdeckung und kontrollierte Komplexität sicherstellt,
3) Ein zuverlässiger Benutzersimulator, der eng mit der Umgebung gekoppelt ist und dessen Verhalten durch Werkzeuge und beobachtbare Zustände eingeschränkt wird, wodurch die Simulationsgenauigkeit verbessert wird,
4) Eine detaillierte Analyse der Agentenleistung durch mehrere Ablationen, einschließlich der Trennung von Fehlern, die aus dem Denken gegenüber der Kommunikation/Koordination entstehen.
Insbesondere zeigen unsere Experimente signifikante Leistungseinbußen, wenn Agenten von der Benutzerlosigkeit zur Dualkontroll-Situation wechseln, was die Herausforderungen bei der Anleitung von Benutzern verdeutlicht. Insgesamt bietet tau^2-bench eine kontrollierte Testumgebung für Agenten, die sowohl effektiv denken als auch Benutzeraktionen anleiten müssen.
English
Existing benchmarks for conversational AI agents simulate single-control
environments, where only the AI agent can use tools to interact with the world,
while the user remains a passive information provider. This differs from
real-world scenarios like technical support, where users need to actively
participate in modifying the state of the (shared) world. In order to address
this gap, we introduce tau^2-bench, with four key contributions:
1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both
agent and user make use of tools to act in a shared, dynamic environment that
tests both agent coordination and communication,
2) A compositional task generator that programmatically creates diverse,
verifiable tasks from atomic components, ensuring domain coverage and
controlled complexity,
3) A reliable user simulator tightly coupled with the environment, whose
behavior is constrained by tools and observable states, improving simulation
fidelity,
4) Fine-grained analysis of agent performance through multiple ablations
including separating errors arising from reasoning vs
communication/coordination.
In particular, our experiments show significant performance drops when agents
shift from no-user to dual-control, highlighting the challenges of guiding
users. Overall, tau^2-bench provides a controlled testbed for agents that
must both reason effectively and guide user actions.