Dataherhaling verslaat dataschaling bij supervised fine-tuning van Long-CoT

Samenvatting

Gebeugdfijnafstemming (SFT) op chain-of-thought gegevens is een essentiële stap na de training voor redenerende taalmodelle. Standaard intuïtie in machinaal leren suggereert dat trainen met meer unieke trainingsvoorbeelden tot betere generalisatie leidt. Tegengesteld aan de intuïtie tonen wij aan dat SFT baat heeft bij herhaling: onder een vast updatebudget presteert trainen over meer epochs op kleinere datasets beter dan training over één epoch op grotere datasets. Op de AIME'24/25- en GPQA-benchmarks presteert Olmo3-7B, getraind over 128 epochs op 400 voorbeelden, 12-26 procentpunten beter dan het equivalent van 1 epoch op 51200 voorbeelden, zonder extra catastrofale vergetelheid. Wij stellen vast dat de nauwkeurigheid van de trainingstokens betrouwbaar aangeeft wanneer herhaling verzadigd is; verbeteringen door extra epochs vlakken af bij volledige memorisatie, een patroon dat consistent is in alle settings. Deze bevindingen bieden een praktische aanpak voor redenerende SFT, waarbij het schalen van epochs met tokennauwkeurigheid als stoppcriterium de dure ongerichte datascaling kan vervangen. Wij presenteren het herhalingsvoordeel, waarbij volledige memorisatie samengaat met verbeterde generalisatie, als een nieuw open probleem voor de gemeenschap in het begrijpen van de traindynamiek van grote taalmodelle.

English

Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.

Dataherhaling verslaat dataschaling bij supervised fine-tuning van Long-CoT

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Samenvatting

Support