ChatPaper.aiChatPaper

τ-bench: Um Benchmark para Interação Ferramenta-Agente-Usuário em Domínios do Mundo Real

τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

June 17, 2024
Autores: Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan
cs.AI

Resumo

Os benchmarks existentes não testam os agentes de linguagem em sua interação com usuários humanos ou em sua capacidade de seguir regras específicas de domínio, ambos aspectos cruciais para sua implantação em aplicações do mundo real. Propomos o tau-bench, um benchmark que simula conversas dinâmicas entre um usuário (simulado por modelos de linguagem) e um agente de linguagem equipado com ferramentas de API específicas do domínio e diretrizes de política. Empregamos um processo de avaliação eficiente e fiel que compara o estado do banco de dados ao final de uma conversa com o estado objetivo anotado. Também propomos uma nova métrica (pass^k) para avaliar a confiabilidade do comportamento do agente em múltiplas tentativas. Nossos experimentos mostram que até mesmo agentes de chamada de função de última geração (como o gpt-4o) têm sucesso em menos de 50% das tarefas e são bastante inconsistentes (pass^8 <25% no varejo). Nossas descobertas apontam para a necessidade de métodos que possam melhorar a capacidade dos agentes de agir de forma consistente e seguir regras de maneira confiável.
English
Existing benchmarks do not test language agents on their interaction with human users or ability to follow domain-specific rules, both of which are vital for deploying them in real world applications. We propose tau-bench, a benchmark emulating dynamic conversations between a user (simulated by language models) and a language agent provided with domain-specific API tools and policy guidelines. We employ an efficient and faithful evaluation process that compares the database state at the end of a conversation with the annotated goal state. We also propose a new metric (pass^k) to evaluate the reliability of agent behavior over multiple trials. Our experiments show that even state-of-the-art function calling agents (like gpt-4o) succeed on <50% of the tasks, and are quite inconsistent (pass^8 <25% in retail). Our findings point to the need for methods that can improve the ability of agents to act consistently and follow rules reliably.
PDF93December 2, 2024