Heroverdenken van generalisatie in redeneer-SFT: een conditionele analyse van optimalisatie, data en modelvermogen

Samenvatting

Een gangbare opvatting in het nabehandelingsproces van grote taalmodellen (LLM's) is dat supervised finetuning (SFT) leidt tot memoriseren, terwijl reinforcement learning (RL) generalisatie bevordert. Wij heroverwegen deze stelling voor SFT met redeneervaardigheden waarbij lange chain-of-thought (CoT) supervisie wordt gebruikt, en komen tot de bevinding dat generalisatie naar andere domeinen niet afwezig is, maar voorwaardelijk. Het wordt gezamenlijk gevormd door optimalisatiedynamiek, trainingsdata en de capaciteiten van het basismodel. Sommige gerapporteerde mislukkingen blijken artefacten van onderoptimalisatie: de prestaties op andere domeinen verslechteren eerst, om vervolgens te herstellen en te verbeteren bij langere training (een dip-en-herstelpatroon). Hierdoor kunnen checkpoints van korte training de generalisatie onderschatten. Zowel de kwaliteit als de structuur van de data zijn van belang: oplossingen van lage kwaliteit schaden de generalisatie in brede zin, terwijl geverifieerde lange-CoT-sporen consistente winst opleveren voor andere domeinen. De capaciteit van het model is essentieel: sterkere modellen internaliseren overdraagbare procedurele patronen (zoals backtracking), zelfs vanuit een eenvoudig rekenkundig spel, terwijl zwakkere modellen alleen de oppervlakkige breedsprakigheid imiteren. Deze generalisatie is echter asymmetrisch: redeneervaardigheden verbeteren, maar veiligheidsaspecten verslechteren. Dit herformuleert de vraag van *of* redeneer-SFT generaliseert, naar *onder welke voorwaarden* en *tegen welke kosten*.

English

A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.

Heroverdenken van generalisatie in redeneer-SFT: een conditionele analyse van optimalisatie, data en modelvermogen

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Samenvatting

Support