Un buen AFS optimiza para el AFS, un mejor AFS se prepara para el aprendizaje por refuerzo.

Resumen

El post-entrenamiento de LLMs de razonamiento es un proceso holístico que normalmente consiste en una etapa fuera de línea de SFT seguida de una etapa en línea de aprendizaje por refuerzo (RL). Sin embargo, el SFT a menudo se optimiza de forma aislada para maximizar únicamente el rendimiento del SFT. Demostramos que, tras un entrenamiento de RL idéntico, los modelos inicializados a partir de puntos de control de SFT más fuertes pueden tener un rendimiento significativamente inferior al de aquellos inicializados a partir de puntos más débiles. Atribuimos esto a un desajuste típico en las canalizaciones SFT-RL actuales: la distribución que genera los datos de SFT fuera de línea puede diferir sustancialmente de la política optimizada durante la RL en línea, que aprende de sus propias trayectorias. Proponemos PEAR (Algoritmo Inspirado en Evaluación de Políticas para la Reponderación de Pérdidas en Aprendizaje fuera de Línea), un método para la etapa de SFT que corrige este desajuste y prepara mejor el modelo para la RL. PEAR utiliza muestreo por importancia para reponderar la pérdida del SFT, con tres variantes que operan a nivel de token, bloque y secuencia. Puede utilizarse para aumentar los objetivos estándar de SFT y conlleva una sobrecarga de entrenamiento adicional mínima una vez que se recopilan las probabilidades para los datos fuera de línea. Realizamos experimentos controlados en juegos de razonamiento verificables y tareas de razonamiento matemático en los modelos Qwen 2.5 y 3 y en modelos destilados de DeepSeek. PEAR mejora consistentemente el rendimiento posterior a la RL en comparación con el SFT canónico, logrando ganancias de "pass@8" de hasta un 14.6% en AIME2025. Nuestros resultados sugieren que PEAR es un paso efectivo hacia un post-entrenamiento de LLMs más holístico, al diseñar y evaluar el SFT teniendo en cuenta la RL posterior, en lugar de hacerlo de forma aislada.

English

Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.

Un buen AFS optimiza para el AFS, un mejor AFS se prepara para el aprendizaje por refuerzo.

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Resumen

Support