τ-bench: 실세계 도메인에서의 도구-에이전트-사용자 상호작용을 위한 벤치마크
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains
June 17, 2024
저자: Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan
cs.AI
초록
기존 벤치마크는 언어 에이전트가 인간 사용자와의 상호작용이나 도메인 특정 규칙을 따르는 능력을 테스트하지 않는데, 이는 실제 애플리케이션에 배포하기 위해 필수적인 요소입니다. 우리는 tau-bench를 제안하는데, 이는 도메인 특정 API 도구와 정책 가이드라인이 제공된 언어 에이전트와 사용자(언어 모델로 시뮬레이션됨) 간의 동적 대화를 에뮬레이트하는 벤치마크입니다. 우리는 대화 종료 시 데이터베이스 상태를 주석이 달린 목표 상태와 비교하는 효율적이고 신뢰할 수 있는 평가 프로세스를 사용합니다. 또한, 에이전트 행동의 신뢰성을 여러 시도에 걸쳐 평가하기 위한 새로운 메트릭(pass^k)을 제안합니다. 우리의 실험 결과, 최첨단 함수 호출 에이전트(예: gpt-4o)조차도 작업의 50% 미만에서 성공하며, 상당히 일관성이 없음(소매 도메인에서 pass^8 <25%)을 보여줍니다. 이러한 발견은 에이전트가 일관적으로 행동하고 규칙을 신뢰할 수 있게 따르는 능력을 향상시킬 수 있는 방법의 필요성을 지적합니다.
English
Existing benchmarks do not test language agents on their interaction with
human users or ability to follow domain-specific rules, both of which are vital
for deploying them in real world applications. We propose tau-bench, a
benchmark emulating dynamic conversations between a user (simulated by language
models) and a language agent provided with domain-specific API tools and policy
guidelines. We employ an efficient and faithful evaluation process that
compares the database state at the end of a conversation with the annotated
goal state. We also propose a new metric (pass^k) to evaluate the reliability
of agent behavior over multiple trials. Our experiments show that even
state-of-the-art function calling agents (like gpt-4o) succeed on <50% of the
tasks, and are quite inconsistent (pass^8 <25% in retail). Our findings point
to the need for methods that can improve the ability of agents to act
consistently and follow rules reliably.Summary
AI-Generated Summary