τ-Conhecimento: Avaliação de Agentes Conversacionais sobre Conhecimento Não Estruturado

Resumo

Os agentes conversacionais estão sendo cada vez mais implantados em contextos intensivos em conhecimento, onde o comportamento correto depende da recuperação e aplicação de conhecimentos específicos do domínio a partir de grandes corpora não estruturados e proprietários durante interações ao vivo com os usuários. No entanto, a maioria dos benchmarks existentes avalia a recuperação ou o uso de ferramentas de forma independente, criando uma lacuna na avaliação agentiva completa e realista sobre dados não estruturados em interações de longo prazo. Apresentamos o τ-Knowledge, uma extensão do τ-Bench para avaliar agentes em ambientes onde o sucesso depende da coordenação de conhecimento externo em linguagem natural com os resultados de ferramentas para produzir alterações de estado verificáveis e conformes com políticas. Nosso novo domínio, τ-Banking, modela fluxos de trabalho realistas de suporte ao cliente em fintech, nos quais os agentes devem navegar por aproximadamente 700 documentos de conhecimento interconectados enquanto executam atualizações de conta mediadas por ferramentas. Tanto na recuperação baseada em *embeddings* quanto na pesquisa baseada em terminal, mesmo modelos de ponta com alto orçamento de raciocínio alcançam apenas sim25,5% de aprovação^1, com a confiabilidade degradando-se acentuadamente ao longo de tentativas repetidas. Os agentes têm dificuldade em recuperar os documentos corretos de bases de conhecimento densamente interligadas e em raciocinar com precisão sobre políticas internas complexas. No geral, o τ-Knowledge fornece um ambiente de teste realista para desenvolver agentes que integram conhecimento não estruturado em implantações voltadas para humanos.

English

Conversational agents are increasingly deployed in knowledge-intensive settings, where correct behavior depends on retrieving and applying domain-specific knowledge from large, proprietary, and unstructured corpora during live interactions with users. Yet most existing benchmarks evaluate retrieval or tool use independently of each other, creating a gap in realistic, fully agentic evaluation over unstructured data in long-horizon interactions. We introduce τ-Knowledge, an extension of τ-Bench for evaluating agents in environments where success depends on coordinating external, natural-language knowledge with tool outputs to produce verifiable, policy-compliant state changes. Our new domain, τ-Banking, models realistic fintech customer support workflows in which agents must navigate roughly 700 interconnected knowledge documents while executing tool-mediated account updates. Across embedding-based retrieval and terminal-based search, even frontier models with high reasoning budgets achieve only sim25.5% pass^1, with reliability degrading sharply over repeated trials. Agents struggle to retrieve the correct documents from densely interlinked knowledge bases and to reason accurately over complex internal policies. Overall, τ-Knowledge provides a realistic testbed for developing agents that integrate unstructured knowledge in human-facing deployments.