ChatPaper.aiChatPaper

τ^2-벤치: 이중 제어 환경에서의 대화형 에이전트 평가

τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment

June 9, 2025
저자: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
cs.AI

초록

기존 대화형 AI 에이전트 벤치마크는 단일 제어 환경을 시뮬레이션하는데, 이는 AI 에이전트만이 도구를 사용해 세계와 상호작용할 수 있고 사용자는 수동적인 정보 제공자로 남아 있는 환경입니다. 이는 기술 지원과 같은 실제 시나리오와는 차이가 있습니다. 실제 시나리오에서는 사용자가 (공유된) 세계의 상태를 수정하기 위해 적극적으로 참여해야 합니다. 이러한 격차를 해결하기 위해 우리는 tau^2-bench를 소개하며, 네 가지 주요 기여를 제시합니다: 1) Dec-POMDP로 모델링된 새로운 통신 이중 제어 도메인. 여기서는 에이전트와 사용자 모두 도구를 사용해 공유되고 동적인 환경에서 행동하며, 이는 에이전트의 조정과 의사소통 능력을 시험합니다. 2) 원자적 구성 요소로부터 다양한, 검증 가능한 작업을 프로그래밍 방식으로 생성하는 구성적 작업 생성기. 이를 통해 도메인 커버리지와 통제된 복잡성을 보장합니다. 3) 환경과 긴밀하게 결합된 신뢰할 수 있는 사용자 시뮬레이터. 이 시뮬레이터의 행동은 도구와 관찰 가능한 상태에 의해 제약되며, 시뮬레이션의 충실도를 향상시킵니다. 4) 추론 대 의사소통/조정에서 발생하는 오류를 분리하는 등 다중 제거를 통해 에이전트 성능을 세밀하게 분석합니다. 특히, 우리의 실험은 에이전트가 사용자 없음에서 이중 제어로 전환할 때 성능이 크게 하락하는 것을 보여주며, 사용자를 안내하는 데 따른 도전 과제를 강조합니다. 전반적으로, tau^2-bench는 효과적으로 추론하고 사용자 행동을 안내해야 하는 에이전트를 위한 통제된 테스트베드를 제공합니다.
English
Existing benchmarks for conversational AI agents simulate single-control environments, where only the AI agent can use tools to interact with the world, while the user remains a passive information provider. This differs from real-world scenarios like technical support, where users need to actively participate in modifying the state of the (shared) world. In order to address this gap, we introduce tau^2-bench, with four key contributions: 1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both agent and user make use of tools to act in a shared, dynamic environment that tests both agent coordination and communication, 2) A compositional task generator that programmatically creates diverse, verifiable tasks from atomic components, ensuring domain coverage and controlled complexity, 3) A reliable user simulator tightly coupled with the environment, whose behavior is constrained by tools and observable states, improving simulation fidelity, 4) Fine-grained analysis of agent performance through multiple ablations including separating errors arising from reasoning vs communication/coordination. In particular, our experiments show significant performance drops when agents shift from no-user to dual-control, highlighting the challenges of guiding users. Overall, tau^2-bench provides a controlled testbed for agents that must both reason effectively and guide user actions.
PDF42June 10, 2025