τ-지식: 비정형 지식 기반 대화 에이전트 평가

초록

대화형 에이전트는 사용자와의 실시간 상호작용 중에 대규모의 독점적이고 비정형적인 코퍼스로부터 도메인 특화 지식을 검색하고 적용하는 데 성능이 좌우되는 지식 집약적 환경에 점점 더 많이 배포되고 있습니다. 그러나 대부분의 기존 벤치마크는 검색과 도구 사용을 서로 독립적으로 평가하여, 장기적 상호작용에서 비정형 데이터에 대한 현실적이고 완전한 자율 에이전트 평가의 공백을 만들어냈습니다. 본 연구에서는 외부의 자연어 지식과 도구 출력을 조정하여 검증 가능하고 정책을 준수하는 상태 변화를 생성해야만 성공할 수 있는 환경에서 에이전트를 평가하기 위한 τ-Bench의 확장인 τ-Knowledge를 소개합니다. 우리의 새로운 도메인인 τ-Banking은 에이전트가 도구 매개 계정 업데이트를 실행하면서 약 700개의 상호 연결된 지식 문서를 탐색해야 하는 현실적인 핀테크 고객 지원 워크플로를 모델링합니다. 임베딩 기반 검색과 터미널 기반 검색 전반에 걸쳐, 높은 추론 예산을 가진 최첨단 모델들조차 약 25.5%의 통과율(Pass@1)에 그치며, 신뢰도는 반복 시행을 거치며 급격히 저하되었습니다. 에이전트는 밀집하게 상호 연결된 지식 베이스에서 정확한 문서를 검색하고 복잡한 내부 정책에 대해 정확하게 추론하는 데 어려움을 겪었습니다. 전반적으로, τ-Knowledge는 인간 중심 배포 환경에서 비정형 지음을 통합하는 에이전트 개발을 위한 현실적인 테스트베드를 제공합니다.

English

Conversational agents are increasingly deployed in knowledge-intensive settings, where correct behavior depends on retrieving and applying domain-specific knowledge from large, proprietary, and unstructured corpora during live interactions with users. Yet most existing benchmarks evaluate retrieval or tool use independently of each other, creating a gap in realistic, fully agentic evaluation over unstructured data in long-horizon interactions. We introduce τ-Knowledge, an extension of τ-Bench for evaluating agents in environments where success depends on coordinating external, natural-language knowledge with tool outputs to produce verifiable, policy-compliant state changes. Our new domain, τ-Banking, models realistic fintech customer support workflows in which agents must navigate roughly 700 interconnected knowledge documents while executing tool-mediated account updates. Across embedding-based retrieval and terminal-based search, even frontier models with high reasoning budgets achieve only sim25.5% pass^1, with reliability degrading sharply over repeated trials. Agents struggle to retrieve the correct documents from densely interlinked knowledge bases and to reason accurately over complex internal policies. Overall, τ-Knowledge provides a realistic testbed for developing agents that integrate unstructured knowledge in human-facing deployments.

τ-지식: 비정형 지식 기반 대화 에이전트 평가

τ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

초록

Support