La Repetición de Datos Supera al Escalado de Datos en el Ajuste Fino Supervisado con Cadenas de Pensamiento Largas
Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning
February 11, 2026
Autores: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
cs.AI
Resumen
El ajuste fino supervisado (SFT) en datos de cadena de pensamiento es un paso esencial posterior al entrenamiento para los modelos de lenguaje de razonamiento. La intuición estándar del aprendizaje automático sugiere que entrenar con más muestras de entrenamiento únicas produce una mejor generalización. De manera contraintuitiva, demostramos que el SFT se beneficia de la repetición: bajo un presupuesto fijo de actualizaciones, entrenar durante más épocas en conjuntos de datos más pequeños supera al entrenamiento de una sola época en conjuntos de datos más grandes. En los puntos de referencia AIME'24/25 y GPQA, Olmo3-7B entrenado durante 128 épocas con 400 muestras supera al equivalente de 1 época con 51200 muestras en 12-26 puntos porcentuales, sin olvido catastrófico adicional. Encontramos que la precisión de los tokens de entrenamiento señala de manera confiable cuándo la repetición se ha saturado; las mejoras de épocas adicionales se estabilizan en la memorización completa, un patrón consistente en todos los escenarios. Estos hallazgos proporcionan un enfoque práctico para el SFT de razonamiento, donde escalar las épocas usando la precisión de tokens como criterio de parada puede reemplazar la costosa escalada de datos no dirigida. Planteamos la ventaja de la repetición, donde la memorización completa coincide con una generalización mejorada, como un nuevo problema abierto para la comunidad en la comprensión de la dinámica del entrenamiento de los modelos de lenguaje grandes.
English
Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.