τ-Knowledge: Valutazione di Agenti Conversazionali su Conoscenza Non Strutturata

Abstract

Gli agenti conversazionali sono sempre più impiegati in contesti ad alta intensità di conoscenza, dove il comportamento corretto dipende dal recupero e dall'applicazione di conoscenze dominio-specifiche da grandi corpora non strutturati e proprietari durante interazioni in tempo reale con gli utenti. Tuttavia, la maggior parte dei benchmark esistenti valuta il recupero delle informazioni o l'uso di strumenti in modo indipendente l'uno dall'altro, creando una lacuna nella valutazione agentica realistica e completa su dati non strutturati in interazioni a lungo termine. Introduciamo τ-Knowledge, un'estensione di τ-Bench per valutare gli agenti in ambienti in cui il successo dipende dal coordinamento di conoscenze esterne in linguaggio naturale con gli output degli strumenti per produrre cambiamenti di stato verificabili e conformi alle policy. Il nostro nuovo dominio, τ-Banking, modella flussi di lavoro realistici di supporto clienti nel fintech, in cui gli agenti devono navigare circa 700 documenti di conoscenza interconnessi mentre eseguono aggiornamenti account mediati da strumenti. Sia con il recupero basato su embedding che con la ricerca da terminale, anche i modelli all'avanguardia con budget computazionali elevati raggiungono solo un tasso di successo del 25.5% circa, con un'affidabilità che si degrada bruscamente in prove ripetute. Gli agenti faticano a recuperare i documenti corretti da basi di conoscenza densamente interconnesse e a ragionare con precisione su politiche interne complesse. Nel complesso, τ-Knowledge fornisce un banco di prova realistico per sviluppare agenti che integrano conoscenza non strutturata in deployment a contatto con gli utenti.

English

Conversational agents are increasingly deployed in knowledge-intensive settings, where correct behavior depends on retrieving and applying domain-specific knowledge from large, proprietary, and unstructured corpora during live interactions with users. Yet most existing benchmarks evaluate retrieval or tool use independently of each other, creating a gap in realistic, fully agentic evaluation over unstructured data in long-horizon interactions. We introduce τ-Knowledge, an extension of τ-Bench for evaluating agents in environments where success depends on coordinating external, natural-language knowledge with tool outputs to produce verifiable, policy-compliant state changes. Our new domain, τ-Banking, models realistic fintech customer support workflows in which agents must navigate roughly 700 interconnected knowledge documents while executing tool-mediated account updates. Across embedding-based retrieval and terminal-based search, even frontier models with high reasoning budgets achieve only sim25.5% pass^1, with reliability degrading sharply over repeated trials. Agents struggle to retrieve the correct documents from densely interlinked knowledge bases and to reason accurately over complex internal policies. Overall, τ-Knowledge provides a realistic testbed for developing agents that integrate unstructured knowledge in human-facing deployments.

τ-Knowledge: Valutazione di Agenti Conversazionali su Conoscenza Non Strutturata

τ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Abstract

Support