Datenwiederholung übertrifft Datenskalierung beim überwachten Feinabstimmen von Long-CoT
Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
February 11, 2026
papers.authors: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
cs.AI
papers.abstract
Überwachtes Feinabstimmen (SFT) auf Chain-of-Thought-Daten ist ein wesentlicher Schritt nach dem Training für Sprachmodelle mit Reasoning-Fähigkeiten. Die herkömmliche Intuition im maschinellen Lernen legt nahe, dass Training mit einer größeren Anzahl einzigartiger Trainingsbeispiele zu besserer Generalisierung führt. Kontraintuitiv zeigen wir, dass SFT von Wiederholung profitiert: Unter einem festen Update-Budget schneidet Training über mehr Epochen auf kleineren Datensätzen besser ab als Training über eine einzelne Epoche auf größeren Datensätzen. Auf den AIME'24/25- und GPQA-Benchmarks übertrifft Olmo3-7B, das über 128 Epochen auf 400 Beispielen trainiert wurde, das äquivalente 1-Epochen-Training auf 51200 Beispielen um 12-26 Prozentpunkte, ohne zusätzlichen katastrophalen Vergessenseffekt. Wir stellen fest, dass die Token-Genauigkeit während des Trainings zuverlässig anzeigt, wann der Nutzen von Wiederholung gesättigt ist; die Verbesserungen durch zusätzliche Epochen stagnieren bei vollständiger Auswendiglernung der Daten, ein Muster, das über alle Einstellungen hinweg konsistent ist. Diese Erkenntnisse bieten einen praktischen Ansatz für Reasoning-SFT, bei dem das Skalieren der Epochen mit der Token-Genauigkeit als Abbruchkriterium das kostspielige, ungerichtete Skalieren der Datenmenge ersetzen kann. Wir stellen den Wiederholungsvorteil, bei dem vollständige Auswendiglernung mit verbesserter Generalisierung zusammenfällt, als ein neues offenes Problem für die Gemeinschaft zur Erforschung der Trainingsdynamik großer Sprachmodelle zur Diskussion.
English
Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.