τ-bench: Un punto de referencia para la interacción entre herramientas, agentes y usuarios en dominios del mundo real
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains
June 17, 2024
Autores: Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan
cs.AI
Resumen
Los puntos de referencia existentes no evalúan a los agentes de lenguaje en su interacción con usuarios humanos ni en su capacidad para seguir reglas específicas de un dominio, ambos aspectos vitales para su implementación en aplicaciones del mundo real. Proponemos tau-bench, un punto de referencia que simula conversaciones dinámicas entre un usuario (simulado por modelos de lenguaje) y un agente de lenguaje equipado con herramientas API específicas del dominio y directrices de políticas. Empleamos un proceso de evaluación eficiente y fiel que compara el estado de la base de datos al final de una conversación con el estado objetivo anotado. También proponemos una nueva métrica (pass^k) para evaluar la confiabilidad del comportamiento del agente en múltiples intentos. Nuestros experimentos muestran que incluso los agentes de llamada a funciones de última generación (como gpt-4o) tienen éxito en menos del 50% de las tareas y son bastante inconsistentes (pass^8 <25% en retail). Nuestros hallazgos señalan la necesidad de métodos que puedan mejorar la capacidad de los agentes para actuar de manera consistente y seguir reglas de forma confiable.
English
Existing benchmarks do not test language agents on their interaction with
human users or ability to follow domain-specific rules, both of which are vital
for deploying them in real world applications. We propose tau-bench, a
benchmark emulating dynamic conversations between a user (simulated by language
models) and a language agent provided with domain-specific API tools and policy
guidelines. We employ an efficient and faithful evaluation process that
compares the database state at the end of a conversation with the annotated
goal state. We also propose a new metric (pass^k) to evaluate the reliability
of agent behavior over multiple trials. Our experiments show that even
state-of-the-art function calling agents (like gpt-4o) succeed on <50% of the
tasks, and are quite inconsistent (pass^8 <25% in retail). Our findings point
to the need for methods that can improve the ability of agents to act
consistently and follow rules reliably.Summary
AI-Generated Summary