Leis de Escalabilidade para Código: Cada Linguagem de Programação Importa

Resumo

Os modelos de linguagem de grande escala para código (Code LLMs) são poderosos, mas dispendiosos para treinar, com leis de escalonamento que preveem o desempenho com base no tamanho do modelo, dados e capacidade computacional. No entanto, diferentes linguagens de programação (LPs) têm impactos variados durante o pré-treinamento que afetam significativamente o desempenho do modelo base, levando a previsões de desempenho imprecisas. Além disso, os trabalhos existentes focam em configurações agnósticas à linguagem, negligenciando a natureza intrinsecamente multilíngue do desenvolvimento de software moderno. Portanto, é primeiro necessário investigar as leis de escalonamento de diferentes LPs e, em seguida, considerar suas influências mútuas para chegar à lei de escalonamento multilíngue final. Neste artigo, apresentamos a primeira exploração sistemática das leis de escalonamento para pré-treinamento de código multilíngue, realizando mais de 1000 experimentos (equivalente a mais de 336.000 horas de H800) em múltiplas LPs, tamanhos de modelo (0,2B a 14B de parâmetros) e tamanhos de conjunto de dados (1T de tokens). Estabelecemos leis de escalonamento abrangentes para Code LLMs em múltiplas LPs, revelando que linguagens interpretadas (por exemplo, Python) beneficiam-se mais do aumento do tamanho do modelo e dos dados do que linguagens compiladas (por exemplo, Rust). O estudo demonstra que o pré-treinamento multilíngue oferece benefícios sinérgicos, particularmente entre LPs sintaticamente semelhantes. Além disso, a estratégia de pré-treinamento de emparelhamento paralelo (concatenar trechos de código com suas traduções) melhora significativamente as habilidades translinguísticas com propriedades de escalonamento favoráveis. Finalmente, propõe-se uma lei de escalonamento multilíngue dependente da proporção para alocar tokens de treinamento de forma ideal, priorizando LPs de alta utilidade (por exemplo, Python), equilibrando pares de alta sinergia (por exemplo, JavaScript-TypeScript) e reduzindo a alocação para linguagens de saturação rápida (Rust), alcançando um desempenho médio superior em todas as LPs em comparação com a distribuição uniforme sob o mesmo orçamento computacional.

English

Code large language models (Code LLMs) are powerful but costly to train, with scaling laws predicting performance from model size, data, and compute. However, different programming languages (PLs) have varying impacts during pre-training that significantly affect base model performance, leading to inaccurate performance prediction. Besides, existing works focus on language-agnostic settings, neglecting the inherently multilingual nature of modern software development. Therefore, it is first necessary to investigate the scaling laws of different PLs, and then consider their mutual influences to arrive at the final multilingual scaling law. In this paper, we present the first systematic exploration of scaling laws for multilingual code pre-training, conducting over 1000+ experiments (Equivalent to 336,000+ H800 hours) across multiple PLs, model sizes (0.2B to 14B parameters), and dataset sizes (1T tokens). We establish comprehensive scaling laws for code LLMs across multiple PLs, revealing that interpreted languages (e.g., Python) benefit more from increased model size and data than compiled languages (e.g., Rust). The study demonstrates that multilingual pre-training provides synergistic benefits, particularly between syntactically similar PLs. Further, the pre-training strategy of the parallel pairing (concatenating code snippets with their translations) significantly enhances cross-lingual abilities with favorable scaling properties. Finally, a proportion-dependent multilingual scaling law is proposed to optimally allocate training tokens by prioritizing high-utility PLs (e.g., Python), balancing high-synergy pairs (e.g., JavaScript-TypeScript), and reducing allocation to fast-saturating languages (Rust), achieving superior average performance across all PLs compared to uniform distribution under the same compute budget.