Leyes de Escalado para Código: Cada Lenguaje de Programación Importa

Resumen

Los modelos de lenguaje de código (Code LLMs) son potentes pero costosos de entrenar, existiendo leyes de escalado que predicen el rendimiento en función del tamaño del modelo, los datos y la capacidad de cómputo. Sin embargo, los distintos lenguajes de programación (PLs) tienen impactos variables durante el pre-entrenamiento que afectan significativamente el rendimiento del modelo base, lo que conduce a predicciones de rendimiento inexactas. Además, los trabajos existentes se centran en configuraciones independientes del lenguaje, ignorando la naturaleza inherentemente multilingüe del desarrollo de software moderno. Por lo tanto, es necesario primero investigar las leyes de escalado de los diferentes PLs, y luego considerar sus influencias mutuas para llegar a la ley de escalado multilingüe final. En este artículo, presentamos la primera exploración sistemática de las leyes de escalado para el pre-entrenamiento multilingüe de código, realizando más de 1000 experimentos (equivalente a más de 336,000 horas de H800) en múltiples PLs, tamaños de modelo (de 0.2B a 14B parámetros) y tamaños de conjuntos de datos (1T tokens). Establecemos leyes de escalado integrales para los Code LLMs en múltiples PLs, revelando que los lenguajes interpretados (por ejemplo, Python) se benefician más del aumento del tamaño del modelo y de los datos que los lenguajes compilados (por ejemplo, Rust). El estudio demuestra que el pre-entrenamiento multilingüe proporciona beneficios sinérgicos, particularmente entre PLs sintácticamente similares. Además, la estrategia de pre-entrenamiento de emparejamiento paralelo (concatenar fragmentos de código con sus traducciones) mejora significativamente las habilidades cross-lingual con propiedades de escalado favorables. Finalmente, se propone una ley de escalado multilingüe dependiente de la proporción para asignar óptimamente los tokens de entrenamiento priorizando PLs de alta utilidad (por ejemplo, Python), equilibrando pares de alta sinergia (por ejemplo, JavaScript-TypeScript) y reduciendo la asignación a lenguajes de saturación rápida (Rust), logrando un rendimiento promedio superior en todos los PLs en comparación con la distribución uniforme bajo el mismo presupuesto computacional.

English

Code large language models (Code LLMs) are powerful but costly to train, with scaling laws predicting performance from model size, data, and compute. However, different programming languages (PLs) have varying impacts during pre-training that significantly affect base model performance, leading to inaccurate performance prediction. Besides, existing works focus on language-agnostic settings, neglecting the inherently multilingual nature of modern software development. Therefore, it is first necessary to investigate the scaling laws of different PLs, and then consider their mutual influences to arrive at the final multilingual scaling law. In this paper, we present the first systematic exploration of scaling laws for multilingual code pre-training, conducting over 1000+ experiments (Equivalent to 336,000+ H800 hours) across multiple PLs, model sizes (0.2B to 14B parameters), and dataset sizes (1T tokens). We establish comprehensive scaling laws for code LLMs across multiple PLs, revealing that interpreted languages (e.g., Python) benefit more from increased model size and data than compiled languages (e.g., Rust). The study demonstrates that multilingual pre-training provides synergistic benefits, particularly between syntactically similar PLs. Further, the pre-training strategy of the parallel pairing (concatenating code snippets with their translations) significantly enhances cross-lingual abilities with favorable scaling properties. Finally, a proportion-dependent multilingual scaling law is proposed to optimally allocate training tokens by prioritizing high-utility PLs (e.g., Python), balancing high-synergy pairs (e.g., JavaScript-TypeScript), and reducing allocation to fast-saturating languages (Rust), achieving superior average performance across all PLs compared to uniform distribution under the same compute budget.

Leyes de Escalado para Código: Cada Lenguaje de Programación Importa

Scaling Laws for Code: Every Programming Language Matters

Resumen

Support