Apriel-Reasoner: Aprendizaje por Refuerzo en el Post-entrenamiento para un Razonamiento General y Eficiente

Resumen

La construcción de modelos de razonamiento de propósito general mediante aprendizaje por refuerzo con recompensas verificables (RLVR) en diversos dominios ha sido ampliamente adoptada por los modelos de peso abierto más avanzados. Sin embargo, sus recetas de entrenamiento y mezclas de dominios a menudo no se divulgan. La optimización conjunta entre dominios plantea desafíos significativos: los dominios varían enormemente en longitud de ejecución, dificultad del problema y eficiencia de muestreo. Además, los modelos con largas trazas de pensamiento en cadena aumentan el coste y la latencia de la inferencia, haciendo que la eficiencia sea crítica para un despliegue práctico. Presentamos Apriel-Reasoner, entrenado con una receta de post-entrenamiento de RL multi-dominio completamente reproducible sobre Apriel-Base, un LLM de peso abierto de 15.000 millones de parámetros, en cinco dominios utilizando conjuntos de datos públicos: matemáticas, generación de código, seguimiento de instrucciones, rompecabezas lógicos y llamadas a funciones. Introducimos un mecanismo de muestreo de dominio adaptativo que preserva las proporciones del dominio objetivo a pesar de las dinámicas heterogéneas de ejecución, y una extensión de la penalización de longitud estándar consciente de la dificultad que, sin sobrecarga adicional de entrenamiento, fomenta razonamientos más largos para problemas difíciles y trazas más cortas para los sencillos. Entrenado con un estricto presupuesto de salida de 16.000 tokens, Apriel-Reasoner generaliza a 32.000 tokens en la inferencia y mejora a Apriel-Base en AIME 2025, GPQA, MMLU-Pro y LiveCodeBench, mientras produce trazas de razonamiento entre un 30% y un 50% más cortas. Iguala a modelos fuertes de peso abierto de tamaño similar con un coste de tokens inferior, empujando así la frontera de Pareto de precisión frente a presupuesto de tokens.

English

Building general-purpose reasoning models using reinforcement learning with verifiable rewards (RLVR) across diverse domains has been widely adopted by frontier open-weight models. However, their training recipes and domain mixtures are often not disclosed. Joint optimization across domains poses significant challenges: domains vary widely in rollout length, problem difficulty and sample efficiency. Further, models with long chain-of-thought traces increase inference cost and latency, making efficiency critical for practical deployment. We present Apriel-Reasoner, trained with a fully reproducible multi-domain RL post-training recipe on Apriel-Base, a 15B-parameter open-weight LLM, across five domains using public datasets: mathematics, code generation, instruction following, logical puzzles and function calling. We introduce an adaptive domain sampling mechanism that preserves target domain ratios despite heterogeneous rollout dynamics, and a difficulty-aware extension of the standard length penalty that, with no additional training overhead, encourages longer reasoning for difficult problems and shorter traces for easy ones. Trained with a strict 16K-token output budget, Apriel-Reasoner generalizes to 32K tokens at inference and improves over Apriel-Base on AIME 2025, GPQA, MMLU-Pro, and LiveCodeBench while producing 30-50% shorter reasoning traces. It matches strong open-weight models of similar size at lower token cost, thereby pushing the Pareto frontier of accuracy versus token budget.

Apriel-Reasoner: Aprendizaje por Refuerzo en el Post-entrenamiento para un Razonamiento General y Eficiente

Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

Resumen

Support