Aprendizaje por Refuerzo Supervisado: De Trayectorias Expertas al Razonamiento Paso a Paso

Resumen

Los Modelos de Lenguaje Grandes (LLM) a menudo tienen dificultades con problemas que requieren razonamiento de múltiples pasos. Para los modelos de código abierto a pequeña escala, el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) falla cuando las soluciones correctas raramente se muestrean incluso después de muchos intentos, mientras que el Fine-Tuning Supervisado (SFT) tiende a sobreajustar demostraciones largas mediante una imitación rígida token por token. Para abordar esta brecha, proponemos el Aprendizaje por Refuerzo Supervisado (SRL), un marco que reformula la resolución de problemas como la generación de una secuencia de "acciones" lógicas. SRL entrena al modelo para generar un monólogo de razonamiento interno antes de comprometerse con cada acción. Proporciona recompensas más suaves basadas en la similitud entre las acciones del modelo y las acciones expertas extraídas del conjunto de datos de SFT de manera escalonada. Esta supervisión ofrece señales de aprendizaje más ricas incluso cuando todas las ejecuciones son incorrectas, al mismo tiempo que fomenta un razonamiento flexible guiado por demostraciones expertas. Como resultado, SRL permite a los modelos pequeños aprender problemas desafiantes que antes eran inalcanzables para SFT o RLVR. Además, inicializar el entrenamiento con SRL antes de refinar con RLVR produce el rendimiento general más sólido. Más allá de los puntos de referencia de razonamiento, SRL se generaliza efectivamente a tareas de ingeniería de software agéntico, estableciéndolo como un marco de entrenamiento robusto y versátil para LLMs orientados al razonamiento.

English

Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.

Aprendizaje por Refuerzo Supervisado: De Trayectorias Expertas al Razonamiento Paso a Paso

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Resumen

Support