Bon SFT optimise pour le SFT, Meilleur SFT prépare pour l'apprentissage par renforcement

papers.abstract

Le post-entraînement des LLMs de raisonnement est un processus holistique qui consiste généralement en une phase SFT hors ligne suivie d'une phase d'apprentissage par renforcement (RL) en ligne. Cependant, le SFT est souvent optimisé de manière isolée pour maximiser uniquement ses performances propres. Nous démontrons qu'après un entraînement RL identique, les modèles initialisés à partir de points de contrôle SFT plus performants peuvent obtenir des résultats significativement inférieurs à ceux initialisés à partir de points de contrôle plus faibles. Nous attribuons cela à un décalage typique dans les pipelines SFT-RL actuels : la distribution qui génère les données SFT hors ligne peut différer substantiellement de la politique optimisée durant le RL en ligne, laquelle apprend à partir de ses propres déroulements. Nous proposons PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), une méthode pour la phase SFT qui corrige ce décalage et prépare mieux le modèle pour le RL. PEAR utilise l'échantillonnage d'importance pour repondérer la perte SFT, avec trois variantes opérant aux niveaux du token, du bloc et de la séquence. Elle peut être utilisée pour augmenter les objectifs SFT standard et n'engendre qu'une faible surcharge computationnelle supplémentaire une fois que les probabilités pour les données hors ligne sont collectées. Nous menons des expériences contrôlées sur des jeux de raisonnement vérifiables et des tâches de raisonnement mathématique avec les modèles Qwen 2.5, 3 et DeepSeek-distilled. PEAR améliore constamment les performances post-RL par rapport au SFT canonique, avec des gains de "pass@8" allant jusqu'à 14,6 % sur AIME2025. Nos résultats suggèrent que PEAR constitue une étape efficace vers un post-entraînement plus holistique des LLMs, en concevant et en évaluant le SFT en tenant compte du RL en aval plutôt que de manière isolée.

English

Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.

Bon SFT optimise pour le SFT, Meilleur SFT prépare pour l'apprentissage par renforcement

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

papers.abstract

Support