Ripensare la generalizzazione nel ragionamento SFT: un'analisi condizionale su ottimizzazione, dati e capacità del modello

Abstract

Una narrativa prevalente nel post-addestramento degli LLM sostiene che il fine-tuning supervisionato (SFT) memorizza, mentre l'apprendimento per rinforzo (RL) generalizza. Rivalutiamo questa affermazione per il SFT sul ragionamento con supervisione a lunga catena di pensiero (CoT) e scopriamo che la generalizzazione cross-dominio non è assente ma condizionata, plasmata congiuntamente dalla dinamica di ottimizzazione, dai dati di addestramento e dalle capacità del modello base. Alcuni fallimenti riportati sono artefatti da sotto-ottimizzazione: le prestazioni cross-dominio prima peggiorano per poi recuperare e migliorare con un addestramento prolungato (uno schema di declino e recupero), quindi checkpoint con addestramento breve possono sottostimare la generalizzazione. Sia la qualità che la struttura dei dati contano: soluzioni di bassa qualità danneggiano ampiamente la generalizzazione, mentre tracce CoT lunghe e verificate producono guadagni cross-dominio consistenti. La capacità del modello è essenziale: modelli più potenti interiorizzano schemi procedurali trasferibili (ad esempio, backtracking) anche da un semplice gioco aritmetico, mentre quelli più deboli imitano la verbosità superficiale. Tuttavia, questa generalizzazione è asimmetrica: il ragionamento migliora mentre la sicurezza si degrada, riformulando la questione dal *se* il SFT sul ragionamento generalizza, al *sotto quali condizioni* e *a quale costo*.

English

A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.

Ripensare la generalizzazione nel ragionamento SFT: un'analisi condizionale su ottimizzazione, dati e capacità del modello

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Abstract

Support