τ-Connaissance : Évaluation des agents conversationnels sur des connaissances non structurées

Résumé

Les agents conversationnels sont de plus en plus déployés dans des contextes à forte intensité de connaissances, où un comportement correct dépend de la capacité à récupérer et à appliquer des connaissances spécifiques à un domaine à partir de vastes corpus non structurés et propriétaires, et ce, lors d'interactions en direct avec les utilisateurs. Pourtant, la plupart des benchmarks existants évaluent la recherche d'information ou l'utilisation d'outils de manière indépendante, créant ainsi un fossé dans l'évaluation réaliste et pleinement agentielle sur des données non structurées lors d'interactions de long terme. Nous présentons τ-Knowledge, une extension de τ-Bench conçue pour évaluer les agents dans des environnements où la réussite dépend de la coordination entre des connaissances externes en langage naturel et les résultats d'outils, afin de produire des modifications d'état vérifiables et conformes aux politiques. Notre nouveau domaine, τ-Banking, modélise des flux de travail réalistes de support client dans la fintech, où les agents doivent naviguer parmi environ 700 documents de connaissances interconnectés tout en exécutant des mises à jour de compte via des outils. Qu'il s'agisse de la récupération par embeddings ou de la recherche par terminal, même les modèles les plus avancés, dotés de budgets de raisonnement élevés, n'atteignent qu'un taux de réussite d'environ 25,5 %¹, avec une fiabilité qui se dégrade fortement sur des essais répétés. Les agents peinent à récupérer les documents corrects dans des bases de connaissances densément liées et à raisonner avec précision sur des politiques internes complexes. Dans l'ensemble, τ-Knowledge offre un banc d'essai réaliste pour développer des agents capables d'intégrer des connaissances non structurées dans des déploiements destinés à interagir avec des humains.

English

Conversational agents are increasingly deployed in knowledge-intensive settings, where correct behavior depends on retrieving and applying domain-specific knowledge from large, proprietary, and unstructured corpora during live interactions with users. Yet most existing benchmarks evaluate retrieval or tool use independently of each other, creating a gap in realistic, fully agentic evaluation over unstructured data in long-horizon interactions. We introduce τ-Knowledge, an extension of τ-Bench for evaluating agents in environments where success depends on coordinating external, natural-language knowledge with tool outputs to produce verifiable, policy-compliant state changes. Our new domain, τ-Banking, models realistic fintech customer support workflows in which agents must navigate roughly 700 interconnected knowledge documents while executing tool-mediated account updates. Across embedding-based retrieval and terminal-based search, even frontier models with high reasoning budgets achieve only sim25.5% pass^1, with reliability degrading sharply over repeated trials. Agents struggle to retrieve the correct documents from densely interlinked knowledge bases and to reason accurately over complex internal policies. Overall, τ-Knowledge provides a realistic testbed for developing agents that integrate unstructured knowledge in human-facing deployments.

τ-Connaissance : Évaluation des agents conversationnels sur des connaissances non structurées

τ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Résumé

Support