KARL : Agents de Connaissance par Apprentissage par Renforcement
KARL: Knowledge Agents via Reinforcement Learning
March 5, 2026
Auteurs: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle
cs.AI
Résumé
Nous présentons un système d'entraînement d'agents de recherche d'entreprise par apprentissage par renforcement qui atteint des performances de pointe sur une suite diversifiée de tâches de recherche agentique difficiles à vérifier. Notre travail apporte quatre contributions fondamentales. Premièrement, nous introduisons KARLBench, une suite d'évaluation multi-capacités couvrant six régimes de recherche distincts, incluant la recherche d'entités sous contraintes, la synthèse de rapports multi-documents, le raisonnement numérique tabulaire, la récupération exhaustive d'entités, le raisonnement procédural sur la documentation technique et l'agrégation de faits à partir de notes internes d'entreprise. Deuxièmement, nous montrons que les modèles entraînés sur des comportements de recherche hétérogènes généralisent nettement mieux que ceux optimisés pour un benchmark unique. Troisièmement, nous développons un pipeline de synthèse agentique utilisant un raisonnement à long terme et l'utilisation d'outils pour générer des données d'entraînement diversifiées, ancrées et de haute qualité, avec un amorçage itératif à partir de modèles de plus en plus performants. Quatrièmement, nous proposons un nouveau paradigme de post-entraînement basé sur l'apprentissage par renforcement hors politique par grands lots itératifs, efficace en échantillons, robuste aux écarts entre moteur d'entraînement et d'inférence, et s'étendant naturellement à l'entraînement multi-tâches avec généralisation hors distribution. Comparé à Claude 4.6 et GPT 5.2, KARL est Pareto-optimal sur KARLBench pour les compromis coût-qualité et latence-qualité, y compris sur des tâches hors distribution durant l'entraînement. Avec une puissance de calcul suffisante au moment du test, il surpasse les modèles fermés les plus performants. Ces résultats démontrent que des données synthétiques sur mesure combinées à l'apprentissage par renforcement multi-tâches permettent de créer des agents de connaissance efficaces et performants pour le raisonnement ancré.
English
We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.