Leyes de Escalado Prescriptivas para Entrenamiento con Restricciones de Datos

Resumen

El cómputo de entrenamiento está superando cada vez más la disponibilidad de datos de alta calidad. Esto desplaza el desafío central de la asignación óptima de cómputo a la extracción del máximo valor de datos limitados. La ley de escalamiento de Chinchilla, ampliamente adoptada, asume que cada *token* de entrenamiento es único. Esto limita su capacidad para guiar las decisiones de preentrenamiento en regímenes con limitaciones de datos. Modelamos el exceso de pérdida bajo repetición con una simple penalización aditiva de sobreajuste y encontramos que describe con precisión el comportamiento del modelo. Nuestra ley de escalamiento produce recomendaciones de asignación óptima de cómputo cualitativamente nuevas. Más allá de un punto, la repetición adicional es contraproducente y es mejor invertir el cómputo en la capacidad del modelo. Demostramos que seguir la configuración recomendada por nuestra ley mejora el rendimiento en regímenes con escasez de datos. Finalmente, dado que nuestra forma de un parámetro aísla el sobreajuste en un único coeficiente, permite la comparación directa entre configuraciones de entrenamiento. Como estudio de caso, mostramos que un *weight decay* fuerte (λ=1.0) reduce este coeficiente en aproximadamente un 70%, proporcionando una explicación basada en leyes de escalamiento para hallazgos recientes que indican que el *weight decay* óptimo en regímenes con limitaciones de datos es un orden de magnitud mayor que la práctica estándar.

English

Training compute is increasingly outpacing the availability of high-quality data. This shifts the central challenge from optimal compute allocation to extracting maximum value from limited data. The widely adopted Chinchilla scaling law assumes every training token is unique. This limits its ability to guide pretraining decisions in data-constrained regimes. We model the excess loss under repetition with a simple additive overfitting penalty and find that it accurately describes model behavior. Our scaling law yields qualitatively new compute-optimal allocation advice. Beyond a point, further repetition is counterproductive and compute is better spent on model capacity. We show that following our law's recommended configuration improves performance in data-constrained regimes. Finally, because our one-parameter form isolates overfitting in a single coefficient, it enables direct comparison across training configurations. As a case study, we show that strong weight decay (λ=1.0) reduces this coefficient by approximately 70%, providing a scaling-law explanation for recent findings that optimal weight decay in data-constrained regimes is an order of magnitude larger than standard practice.

Leyes de Escalado Prescriptivas para Entrenamiento con Restricciones de Datos

Prescriptive Scaling Laws for Data Constrained Training

Resumen

Support