Neubewertung der Generalisierung im Reasoning SFT: Eine bedingte Analyse zu Optimierung, Daten und Modellfähigkeiten
Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
April 8, 2026
Autoren: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu
cs.AI
Zusammenfassung
Eine vorherrschende Annahme im Post-Training von LLMs besagt, dass überwachtes Feintuning (SFT) memorisiert, während Reinforcement Learning (RL) generalisiert. Wir überprüfen diese Behauptung für Reasoning-SFT mit langen Chain-of-Thought (CoT)-Supervisionsdaten und stellen fest, dass domänenübergreifende Generalisierung nicht abwesend, sondern bedingt ist – gemeinsam geprägt durch Optimierungsdynamik, Trainingsdaten und Basismodellfähigkeiten. Einige berichtete Fehlschläge sind Artefakte von Unteroptimierung: Die domänenübergreifende Leistung verschlechtert sich zunächst, bevor sie sich bei längerem Training erholt und verbessert (ein Dip-and-Recovery-Muster), sodass Checkpoints nach kurzem Training die Generalisierung unterschätzen können. Datenqualität und -struktur sind beide entscheidend: qualitativ niedrige Lösungen schaden der Generalisierung breit, während verifizierte lange-CoT-Abläufe konsistente domänenübergreifende Gewinne bringen. Die Modellfähigkeit ist wesentlich: leistungsstärkere Modelle internalisieren übertragbare prozedurale Muster (z.B. Backtracking) selbst aus einem einfachen Arithmetik-Spiel, während schwächere lediglich oberflächliche Weitschweifigkeit imitieren. Diese Generalisierung ist jedoch asymmetrisch: Das Reasoning verbessert sich, während die Sicherheit abnimmt, was die Frage neu formuliert – nicht ob Reasoning-SFT generalisiert, sondern unter welchen Bedingungen und zu welchem Preis.
English
A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.