τ-Знание: Оценка диалоговых агентов на основе неструктурированных знаний

Аннотация

Диалоговые агенты все чаще применяются в условиях, требующих работы со знаниями, где корректное поведение зависит от извлечения и применения предметных знаний из больших, проприетарных и неструктурированных корпусов данных в ходе интерактивного взаимодействия с пользователями. Однако большинство существующих бенчмарков оценивают извлечение информации и использование инструментов независимо друг от друга, что создает разрыв в реалистичной, полностью агентской оценке работы с неструктурированными данными в долгосрочных взаимодействиях. Мы представляем τ-Knowledge — расширение платформы τ-Bench для оценки агентов в средах, где успех зависит от координации внешних знаний на естественном языке с результатами работы инструментов для достижения проверяемых изменений состояния, соответствующих политикам. Наша новая предметная область, τ-Banking, моделирует реалистичные рабочие процессы поддержки клиентов в финтехе, где агенты должны ориентироваться примерно в 700 взаимосвязанных документах базы знаний, одновременно выполняя инструментально опосредованные обновления учетных записей. При использовании как поиска на основе эмбеддингов, так и терминального поиска, даже передовые модели с высоким бюджетом на рассуждения демонстрируют показатель успеха всего лишь около 25.5%, при этом надежность резко снижается в повторных испытаниях. Агенты испытывают трудности с извлечением корректных документов из плотно связанных баз знаний и с точным логическим выводом на основе сложных внутренних политик. В целом, τ-Knowledge предоставляет реалистичный полигон для разработки агентов, интегрирующих неструктурированные знания в развертываниях, ориентированных на взаимодействие с человеком.

English

Conversational agents are increasingly deployed in knowledge-intensive settings, where correct behavior depends on retrieving and applying domain-specific knowledge from large, proprietary, and unstructured corpora during live interactions with users. Yet most existing benchmarks evaluate retrieval or tool use independently of each other, creating a gap in realistic, fully agentic evaluation over unstructured data in long-horizon interactions. We introduce τ-Knowledge, an extension of τ-Bench for evaluating agents in environments where success depends on coordinating external, natural-language knowledge with tool outputs to produce verifiable, policy-compliant state changes. Our new domain, τ-Banking, models realistic fintech customer support workflows in which agents must navigate roughly 700 interconnected knowledge documents while executing tool-mediated account updates. Across embedding-based retrieval and terminal-based search, even frontier models with high reasoning budgets achieve only sim25.5% pass^1, with reliability degrading sharply over repeated trials. Agents struggle to retrieve the correct documents from densely interlinked knowledge bases and to reason accurately over complex internal policies. Overall, τ-Knowledge provides a realistic testbed for developing agents that integrate unstructured knowledge in human-facing deployments.

τ-Знание: Оценка диалоговых агентов на основе неструктурированных знаний

τ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Аннотация

Support