KARL: 강화 학습 기반 지식 에이전트
KARL: Knowledge Agents via Reinforcement Learning
March 5, 2026
저자: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle
cs.AI
초록
우리는 강화 학습을 통해 기업 검색 에이전트를 훈련하는 시스템을 제시하며, 이는 검증이 어려운 다양한 에이전트 검색 과제들에서 최첨단 성능을 달성합니다. 본 연구는 네 가지 핵심 기여점을 갖습니다. 첫째, 제약 조건 기반 개체 검색, 문서 간 보고서 통합, 표 형식 수치 추론, 포괄적 개체 검색, 기술 문서에 대한 절차적 추론, 내부 기업 노트에 대한 사실 통합 등 여섯 가지 상이한 검색 영역을 아우르는 다중 역량 평가 제품군인 KARLBench를 소개합니다. 둘째, 이질적인 검색 행동에 걸쳐 훈련된 모델이 단일 벤치마크에 최적화된 모델보다 훨씬 더 우수한 일반화 성능을 보인다는 점을 입증합니다. 셋째, 장기 추론과 도구 사용을 통해 다양하고 근거 있으며 고품질의 훈련 데이터를 생성하는 에이전트 통합 파이프라인을 개발하며, 점점 더 능력 있는 모델로부터의 반복적 부트스트래핑을 적용합니다. 넷째, 샘플 효율이 높고 훈련-추론 엔진 간 차이에 강건하며, 분포 외 일반화를 통한 다중 작업 훈련으로 자연스럽게 확장되는 반복적 대규모 배치 오프-폴리시 RL 기반의 새로운 사후 훈련 패러다임을 제안합니다. Claude 4.6 및 GPT 5.2와 비교했을 때, KARL은 비용-품질 및 지연 시간-품질 절충 관계에서 KARLBench 전체에 걸쳐 파레토 최적이며, 여기에는 훈련 중 분포 외였던 작업들도 포함됩니다. 충분한 테스트 시간 연산 자원이 주어지면, 가장 강력한 폐쇄형 모델들을 능가합니다. 이러한 결과는 다중 작업 강화 학습과 결합된 맞춤형 합성 데이터가 근거 기반 추론을 위한 비용 효율적이고 고성능의 지식 에이전트를 가능하게 함을 보여줍니다.
English
We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.