Repenser la généralisation dans le raisonnement par SFT : une analyse conditionnelle de l'optimisation, des données et des capacités du modèle

Résumé

Un récit prédominant dans le post-entraînement des LLM affirme que le réglage fin supervisé (SFT) mémorise tandis que l'apprentissage par renforcement (RL) généralise. Nous réexaminons cette affirmation concernant le SFT pour le raisonnement avec une supervision longue par enchaînement de pensées (CoT) et constatons que la généralisation interdomaine n'est pas absente mais conditionnelle, façonnée conjointement par la dynamique d'optimisation, les données d'entraînement et la capacité du modèle de base. Certains échecs rapportés sont des artéfacts de sous-optimisation : les performances interdomaines se dégradent d'abord avant de se rétablir et de s'améliorer avec un entraînement prolongé (un schéma de chute et de récupération), ce qui signifie que les points de contrôle issus d'un entraînement court peuvent sous-estimer la généralisation. La qualité et la structure des données comptent toutes deux : des solutions de faible qualité nuisent largement à la généralisation, tandis que des traces longues de CoT vérifiées produisent des gains interdomaines constants. La capacité du modèle est essentielle : les modèles plus puissants internalisent des patterns procéduraux transférables (par exemple, le retour arrière) même à partir d'un simple jeu arithmétique, tandis que les modèles plus faibles imitent la verbosité superficielle. Cette généralisation est cependant asymétrique : le raisonnement s'améliore tandis que la sécurité se dégrade, reformulant la question de savoir non pas *si* le SFT pour le raisonnement généralise, mais *dans quelles conditions* et *à quel coût*.

English

A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.

Repenser la généralisation dans le raisonnement par SFT : une analyse conditionnelle de l'optimisation, des données et des capacités du modèle

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Résumé

Support