La répétition des données surpasse l'augmentation des données dans le réglage fin supervisé par raisonnement en chaîne long

papers.abstract

Le réglage fin supervisé (SFT) sur des données de chaîne de raisonnement est une étape post-formation essentielle pour les modèles de langage dédiés au raisonnement. L'intuition classique en apprentissage automatique suggère que l'entraînement avec un plus grand nombre d'échantillons uniques améliore la généralisation. De manière contre-intuitive, nous montrons que le SFT bénéficie de la répétition : avec un budget de mises à jour fixe, un entraînement sur plus d'époques avec des jeux de données plus petits surpasse l'entraînement sur une seule époque avec des jeux de données plus vastes. Sur les benchmarks AIME'24/25 et GPQA, Olmo3-7B entraîné pendant 128 époques sur 400 échantillons surpasse l'équivalent d'une époque sur 51200 échantillons par 12 à 26 points de pourcentage, sans oubli catastrophique supplémentaire. Nous constatons que la précision des tokens d'entraînement indique de manière fiable quand la répétition est saturée ; les gains liés aux époques supplémentaires plafonnent à la mémorisation complète, un schéma cohérent dans tous les paramètres. Ces résultats offrent une approche pratique pour le SFT en raisonnement, où l'augmentation du nombre d'époques avec la précision des tokens comme critère d'arrêt peut remplacer un coûteux accroissement non dirigé des données. Nous posons l'avantage de la répétition, où la mémorisation complète coïncide avec une meilleure généralisation, comme un nouveau problème ouvert pour la communauté afin de comprendre la dynamique d'entraînement des grands modèles de langage.

English

Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.

La répétition des données surpasse l'augmentation des données dans le réglage fin supervisé par raisonnement en chaîne long

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

papers.abstract

Support