A Repetição de Dados Supera a Escalonamento de Dados no Ajuste Fino Supervisionado com Long-CoT

Resumo

O ajuste fino supervisionado (SFT) em dados de cadeia de raciocínio é uma etapa essencial pós-treinamento para modelos de linguagem de raciocínio. A intuição padrão do aprendizado de máquina sugere que treinar com mais amostras de treinamento únicas produz melhor generalização. Contraintuitivamente, demonstramos que o SFT beneficia-se da repetição: sob um orçamento fixo de atualizações, treinar por mais épocas em conjuntos de dados menores supera o treinamento de época única em conjuntos de dados maiores. Nos benchmarks AIME'24/25 e GPQA, o Olmo3-7B treinado por 128 épocas em 400 amostras supera o equivalente de 1 época em 51200 amostras em 12-26 pontos percentuais, sem esquecimento catastrófico adicional. Descobrimos que a precisão por token de treinamento sinaliza de forma confiável quando a repetição está saturada; as melhorias de épocas adicionais estabilizam-se na memorização completa, um padrão consistente em todas as configurações. Essas descobertas fornecem uma abordagem prática para o SFT de raciocínio, onde a escalonagem de épocas com a precisão por token como critério de parada pode substituir a escalonagem de dados não direcionada e dispendiosa. Apresentamos a vantagem da repetição, onde a memorização completa coincide com a generalização melhorada, como um novo problema aberto para a comunidade na compreensão da dinâmica de treinamento de grandes modelos de linguagem.

English

Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.

A Repetição de Dados Supera a Escalonamento de Dados no Ajuste Fino Supervisionado com Long-CoT

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Resumo

Support