ChatPaper.aiChatPaper

KARL: Agentes de Conocimiento mediante Aprendizaje por Refuerzo

KARL: Knowledge Agents via Reinforcement Learning

March 5, 2026
Autores: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle
cs.AI

Resumen

Presentamos un sistema para entrenar agentes de búsqueda empresarial mediante aprendizaje por refuerzo que logra un rendimiento de vanguardia en un conjunto diverso de tareas de búsqueda agentica difíciles de verificar. Nuestro trabajo realiza cuatro contribuciones principales. En primer lugar, presentamos KARLBench, un conjunto de evaluación de capacidades múltiples que abarca seis regímenes de búsqueda distintos, incluyendo búsqueda de entidades basada en restricciones, síntesis de informes a través de documentos, razonamiento numérico sobre tablas, recuperación exhaustiva de entidades, razonamiento procedural sobre documentación técnica y agregación de hechos a partir de notas internas empresariales. En segundo lugar, demostramos que los modelos entrenados en comportamientos de búsqueda heterogéneos generalizan sustancialmente mejor que aquellos optimizados para un único benchmark. En tercer lugar, desarrollamos una pipeline de síntesis agentica que emplea razonamiento de horizonte largo y uso de herramientas para generar datos de entrenamiento diversos, fundamentados y de alta calidad, con un proceso iterativo de arranque a partir de modelos cada vez más capaces. En cuarto lugar, proponemos un nuevo paradigma de post-entrenamiento basado en aprendizaje por refuerzo fuera de política con lotes grandes e iterativos que es eficiente en muestras, robusto a discrepancias entre motor de entrenamiento e inferencia, y se extiende naturalmente al entrenamiento multitarea con generalización fuera de distribución. En comparación con Claude 4.6 y GPT 5.2, KARL es Pareto-óptimo en KARLBench en las compensaciones costo-calidad y latencia-calidad, incluyendo tareas que estaban fuera de distribución durante el entrenamiento. Con suficiente capacidad computacional en tiempo de prueba, supera a los modelos cerrados más potentes. Estos resultados demuestran que los datos sintéticos personalizados, en combinación con el aprendizaje por refuerzo multitarea, permiten crear agentes de conocimiento eficientes en coste y de alto rendimiento para el razonamiento fundamentado.
English
We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.
PDF51March 9, 2026