KARL: 強化学習による知識エージェント
KARL: Knowledge Agents via Reinforcement Learning
March 5, 2026
著者: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle
cs.AI
要旨
本論文では、強化学習による企業向け検索エージェントの訓練システムを提案し、検証が困難な多様なエージェント検索タスク群において最先端の性能を達成する。本研究の核となる貢献は四点ある。第一に、制約駆動型エンティティ検索、文書横断的なレポート合成、表形式データの数値推論、網羅的エンティティ検索、技術文書に基づく手順推論、社内ナレッジにおける事実集約という6つの異なる検索領域を網羅する多機能評価スイート「KARLBench」を導入する。第二に、異種混合の検索行動にわたって訓練されたモデルが、単一ベンチマーク向けに最適化されたモデルよりも汎化性能が大幅に向上することを示す。第三に、長期的推論とツール利用を採用し、能力が向上するモデルからの反復的ブートストラップにより、多様で接地された高品質な訓練データを生成するエージェント合成パイプラインを開発する。第四に、サンプル効率が高く、訓練と推論エンジンの不一致に対して頑健であり、分布外汎化を伴うマルチタスク訓練に自然に拡張可能な、反復的大規模バッチオフポリシー強化学習に基づく新しい事後訓練パラダイムを提案する。Claude 4.6およびGPT 5.2と比較して、KARLはコスト品質とレイテンシ品質のトレードオフにおいて、訓練時に分布外であったタスクを含むKARLBenchでパレート最適を達成する。十分な推論時計算資源があれば、最も強力なクローズドモデルを凌駕する。これらの結果は、調整された合成データとマルチタスク強化学習の組み合わせが、接地推論のためのコスト効率が高く高性能なナレッジエージェントを実現することを示している。
English
We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.