Un buon SFT ottimizza per l'SFT, un SFT migliore prepara per l'apprendimento per rinforzo.

Abstract

Il post-addestramento dei modelli linguistici di ragionamento è un processo olistico che tipicamente consiste in una fase offline di SFT (Supervised Fine-Tuning) seguita da una fase online di apprendimento per rinforzo (RL). Tuttavia, l'SFT viene spesso ottimizzato in modo isolato per massimizzare esclusivamente le prestazioni SFT. Dimostriamo che, dopo un identico addestramento RL, i modelli inizializzati da checkpoint SFT più forti possono ottenere prestazioni significativamente inferiori rispetto a quelli inizializzati da checkpoint più deboli. Attribuiamo questo a un disallineamento tipico delle pipeline SFT-RL attuali: la distribuzione che genera i dati SFT offline può differire sostanzialmente dalla politica ottimizzata durante l'RL online, che apprende dalle proprie traiettorie. Proponiamo PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), un metodo per la fase SFT che corregge questo disallineamento e prepara meglio il modello per l'RL. PEAR utilizza l'importance sampling per ripesare la loss SFT, con tre varianti che operano a livello di token, blocco e sequenza. Può essere utilizzato per potenziare gli obiettivi SFT standard e comporta un sovraccarico computazionale aggiuntivo minimo una volta raccolte le probabilità per i dati offline. Condurremo esperimenti controllati su giochi di ragionamento verificabili e compiti di ragionamento matematico sui modelli Qwen 2.5 e 3 e sui modelli distillati di DeepSeek. PEAR migliora costantemente le prestazioni post-RL rispetto all'SFT canonico, con guadagni in "pass@8" fino al 14,6% su AIME2025. I nostri risultati suggeriscono che PEAR rappresenta un passo efficace verso un post-addestramento più olistico dei LLM, progettando e valutando l'SFT tenendo conto dell'RL a valle piuttosto che in modo isolato.

English

Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.

Un buon SFT ottimizza per l'SFT, un SFT migliore prepara per l'apprendimento per rinforzo.

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Abstract

Support