KARL: Kennisagenten via Versterkingsleren
KARL: Knowledge Agents via Reinforcement Learning
March 5, 2026
Auteurs: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle
cs.AI
Samenvatting
Wij presenteren een systeem voor het trainen van zoekagenten voor bedrijven via reinforcement learning dat state-of-the-art prestaties behaalt op een diverse reeks moeilijk te verifiëren agent-gebaseerde zoektaken. Ons werk levert vier kernbijdragen. Ten eerste introduceren we KARLBench, een evaluatiesuite met meerdere capaciteiten die zes verschillende zoekregimes omvat, waaronder constraint-gestuurd zoeken naar entiteiten, cross-document rapportensynthese, tabelgebaseerd numeriek redeneren, uitgebreide entiteitenretrieval, procedureel redeneren over technische documentatie en feitenaggregatie over interne bedrijfsnotities. Ten tweede tonen we aan dat modellen getraind over heterogene zoekgedragingen aanzienlijk beter generaliseren dan modellen geoptimaliseerd voor een enkele benchmark. Ten derde ontwikkelen we een agent-gebaseerd synthesepipeline dat langetermijnredenering en toolgebruik inzet om diverse, gegronde en hoogwaardige trainingsdata te genereren, met iteratieve bootstrapping vanuit steeds capabelere modellen. Ten vierde stellen we een nieuwe post-training paradigma voor gebaseerd op iteratieve large-batch off-policy RL dat sample-efficiënt is, robuust tegen train-inference engine discrepanties, en zich natuurlijk uitstrekt tot multi-task training met out-of-distribution generalisatie. Vergeleken met Claude 4.6 en GPT 5.2 is KARL Pareto-optimaal op KARLBench voor kosten-kwaliteit en latentie-kwaliteit afwegingen, inclusief taken die out-of-distribution waren tijdens de training. Met voldoende rekenkracht tijdens testen overstijgt het de sterkste gesloten modellen. Deze resultaten tonen aan dat op maat gemaakte synthetische data in combinatie met multi-task reinforcement learning kostenefficiënte en hoogpresterende kennisagenten mogelijk maakt voor gegrond redeneren.
English
We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.