La ripetizione dei dati batte il ridimensionamento dei dati nel fine-tuning supervisionato di Long-CoT

Abstract

L'addestramento supervisionato per messa a punto (SFT) su dati a catena di pensiero è un passaggio essenziale post-addestramento per i modelli linguistici di ragionamento. L'intuizione standard dell'apprendimento automatico suggerisce che addestrare con un maggior numero di campioni di addestramento unici produca una migliore generalizzazione. Controintuitivamente, dimostriamo che l'SFT trae beneficio dalla ripetizione: con un budget di aggiornamento fisso, addestrare per più epoche su dataset più piccoli supera le prestazioni dell'addestramento a epoca singola su dataset più grandi. Sui benchmark AIME'24/25 e GPQA, Olmo3-7B addestrato per 128 epoche su 400 campioni supera di 12-26 punti percentuali l'equivalente addestramento a 1 epoca su 51200 campioni, senza ulteriore oblio catastrofico. Troviamo che l'accuratezza sui token di addestramento segnala in modo affidabile quando la ripetizione ha raggiunto la saturazione; i miglioramenti derivanti da epoche aggiuntive si stabilizzano alla memorizzazione completa, uno schema coerente in tutte le impostazioni. Questi risultati forniscono un approccio pratico per l'SFT di ragionamento, in cui scalare le epoche usando l'accuratezza sui token come criterio di arresto può sostituire la costosa scalata dei dati non diretta. Proponiamo il vantaggio della ripetizione, in cui la piena memorizzazione coincide con una generalizzazione migliorata, come un nuovo problema aperto per la comunità scientifica per comprendere le dinamiche di addestramento dei grandi modelli linguistici.

English

Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.

La ripetizione dei dati batte il ridimensionamento dei dati nel fine-tuning supervisionato di Long-CoT

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Abstract

Support