τ-ナレッジ：非構造化ナレッジに基づく対話エージェントの評価

要旨

対話エージェントは、知識集約的な環境でますます導入されるようになっており、ユーザーとのライブ対話中に、大規模で非公開の非構造化コーパスからドメイン固有の知識を検索し適用することが、正しい動作に不可欠となっています。しかし、既存のベンチマークのほとんどは、検索とツール利用を個別に評価しており、非構造化データを用いた長期的な相互作用における現実的で完全に自律的な評価においてギャップが生じています。本研究では、外部の自然言語知識とツール出力を調整して検証可能かつポリシー準拠の状態変化を生み出すことが成功に不可欠な環境下でのエージェント評価のために、τ-Benchを拡張したτ-Knowledgeを提案します。新しいドメインであるτ-Bankingは、現実的なフィンテックカスタマーサポートのワークフローをモデル化しており、エージェントは約700の相互接続された知識文書を参照しながら、ツールを介した口座更新を実行しなければなりません。埋め込みベースの検索とターミナルベースの検索の両方において、高い推論リソースを割り当てられた最先端のモデルでさえ、合格率は約25.5%¹に留まり、信頼性は反復試行で急激に低下します。エージェントは、密接にリンクされた知識ベースから正しい文書を検索すること、および複雑な内部ポリシーを正確に推論することに苦労しています。全体として、τ-Knowledgeは、人間を対象とした導入環境で非構造化知識を統合するエージェントを開発するための現実的なテストベッドを提供します。

English

Conversational agents are increasingly deployed in knowledge-intensive settings, where correct behavior depends on retrieving and applying domain-specific knowledge from large, proprietary, and unstructured corpora during live interactions with users. Yet most existing benchmarks evaluate retrieval or tool use independently of each other, creating a gap in realistic, fully agentic evaluation over unstructured data in long-horizon interactions. We introduce τ-Knowledge, an extension of τ-Bench for evaluating agents in environments where success depends on coordinating external, natural-language knowledge with tool outputs to produce verifiable, policy-compliant state changes. Our new domain, τ-Banking, models realistic fintech customer support workflows in which agents must navigate roughly 700 interconnected knowledge documents while executing tool-mediated account updates. Across embedding-based retrieval and terminal-based search, even frontier models with high reasoning budgets achieve only sim25.5% pass^1, with reliability degrading sharply over repeated trials. Agents struggle to retrieve the correct documents from densely interlinked knowledge bases and to reason accurately over complex internal policies. Overall, τ-Knowledge provides a realistic testbed for developing agents that integrate unstructured knowledge in human-facing deployments.

τ-ナレッジ：非構造化ナレッジに基づく対話エージェントの評価

τ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

要旨

Support