τ-bench: Un benchmark per l'interazione strumento-agente-utente in domini del mondo reale
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains
June 17, 2024
Autori: Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan
cs.AI
Abstract
I benchmark esistenti non testano gli agenti linguistici sulla loro interazione con gli utenti umani o sulla capacità di seguire regole specifiche del dominio, entrambi aspetti cruciali per il loro impiego in applicazioni del mondo reale. Proponiamo tau-bench, un benchmark che simula conversazioni dinamiche tra un utente (simulato da modelli linguistici) e un agente linguistico dotato di strumenti API specifici del dominio e linee guida politiche. Utilizziamo un processo di valutazione efficiente e fedele che confronta lo stato del database alla fine di una conversazione con lo stato obiettivo annotato. Proponiamo inoltre una nuova metrica (pass^k) per valutare l'affidabilità del comportamento dell'agente su più prove. I nostri esperimenti dimostrano che anche gli agenti all'avanguardia nella chiamata di funzioni (come gpt-4o) riescono a completare meno del 50% dei compiti e sono piuttosto incoerenti (pass^8 <25% nel settore retail). I nostri risultati evidenziano la necessità di metodi che possano migliorare la capacità degli agenti di agire in modo coerente e seguire le regole in modo affidabile.
English
Existing benchmarks do not test language agents on their interaction with
human users or ability to follow domain-specific rules, both of which are vital
for deploying them in real world applications. We propose tau-bench, a
benchmark emulating dynamic conversations between a user (simulated by language
models) and a language agent provided with domain-specific API tools and policy
guidelines. We employ an efficient and faithful evaluation process that
compares the database state at the end of a conversation with the annotated
goal state. We also propose a new metric (pass^k) to evaluate the reliability
of agent behavior over multiple trials. Our experiments show that even
state-of-the-art function calling agents (like gpt-4o) succeed on <50% of the
tasks, and are quite inconsistent (pass^8 <25% in retail). Our findings point
to the need for methods that can improve the ability of agents to act
consistently and follow rules reliably.