τ-bench: Набор тестов для взаимодействия инструмента-агента-пользователя в областях реального мира
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains
June 17, 2024
Авторы: Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan
cs.AI
Аннотация
Существующие бенчмарки не тестируют языковых агентов на их взаимодействие с
человеческими пользователями или способность следовать доменно-специфическим правилам, что оба являются важными
для их применения в реальных приложениях. Мы предлагаем tau-bench, бенчмарк, эмулирующий динамические разговоры между пользователем (симулируемым языковыми
моделями) и языковым агентом, обеспеченным доменно-специфическими API-инструментами и политикой
руководства. Мы используем эффективный и точный процесс оценки, который
сравнивает состояние базы данных в конце разговора с аннотированным
целевым состоянием. Мы также предлагаем новую метрику (pass^k) для оценки надежности
поведения агента на протяжении нескольких испытаний. Наши эксперименты показывают, что даже
современные агенты вызова функций (например, gpt-4o) успешны менее чем в 50% случаев,
и довольно неустойчивы (pass^8 <25% в розничной торговле). Наши результаты указывают
на необходимость методов, способных улучшить способность агентов действовать
согласованно и надежно следовать правилам.
English
Existing benchmarks do not test language agents on their interaction with
human users or ability to follow domain-specific rules, both of which are vital
for deploying them in real world applications. We propose tau-bench, a
benchmark emulating dynamic conversations between a user (simulated by language
models) and a language agent provided with domain-specific API tools and policy
guidelines. We employ an efficient and faithful evaluation process that
compares the database state at the end of a conversation with the annotated
goal state. We also propose a new metric (pass^k) to evaluate the reliability
of agent behavior over multiple trials. Our experiments show that even
state-of-the-art function calling agents (like gpt-4o) succeed on <50% of the
tasks, and are quite inconsistent (pass^8 <25% in retail). Our findings point
to the need for methods that can improve the ability of agents to act
consistently and follow rules reliably.Summary
AI-Generated Summary