Leggi di Scalabilità per il Codice: Ogni Linguaggio di Programmazione Conta

Abstract

I modelli linguistici di codice (Code LLM) sono potenti ma costosi da addestrare, con le leggi di scalabilità che ne predicono le prestazioni in base alle dimensioni del modello, ai dati e alla potenza di calcolo. Tuttavia, i diversi linguaggi di programmazione (PL) hanno impatti variabili durante il pre-addestramento che influiscono significativamente sulle prestazioni del modello base, portando a previsioni imprecise. Inoltre, i lavori esistenti si concentrano su impostazioni indipendenti dalla lingua, trascurando la natura intrinsecamente multilingue dello sviluppo software moderno. Pertanto, è prima necessario investigare le leggi di scalabilità dei diversi PL, e poi considerare le loro influenze reciproche per arrivare alla legge di scalabilità multilingue finale. In questo articolo, presentiamo la prima esplorazione sistematica delle leggi di scalabilità per il pre-addestramento multilingue sul codice, conducendo oltre 1000 esperimenti (equivalenti a più di 336.000 ore di H800) su più PL, dimensioni del modello (da 0,2 a 14 miliardi di parametri) e dimensioni dei dataset (1T di token). Stabiliamo leggi di scalabilità complete per i Code LLM su più PL, rivelando che i linguaggi interpretati (ad es. Python) beneficiano maggiormente dell'aumento delle dimensioni del modello e dei dati rispetto ai linguaggi compilati (ad es. Rust). Lo studio dimostra che il pre-addestramento multilingue fornisce benefici sinergici, specialmente tra PL sintatticamente simili. Inoltre, la strategia di pre-addestramento dell'abbinamento parallelo (concatenare frammenti di codice con le loro traduzioni) migliora significativamente le capacità cross-lingua con proprietà di scalabilità favorevoli. Infine, viene proposta una legge di scalabilità multilingue dipendente dalle proporzioni per allocare ottimalmente i token di addestramento, dando priorità ai PL ad alta utilità (ad es. Python), bilanciando le coppie ad alta sinergia (ad es. JavaScript-TypeScript) e riducendo l'allocazione ai linguaggi a saturazione rapida (Rust), ottenendo prestazioni medie superiori su tutti i PL rispetto alla distribuzione uniforme con lo stesso budget computazionale.

English

Code large language models (Code LLMs) are powerful but costly to train, with scaling laws predicting performance from model size, data, and compute. However, different programming languages (PLs) have varying impacts during pre-training that significantly affect base model performance, leading to inaccurate performance prediction. Besides, existing works focus on language-agnostic settings, neglecting the inherently multilingual nature of modern software development. Therefore, it is first necessary to investigate the scaling laws of different PLs, and then consider their mutual influences to arrive at the final multilingual scaling law. In this paper, we present the first systematic exploration of scaling laws for multilingual code pre-training, conducting over 1000+ experiments (Equivalent to 336,000+ H800 hours) across multiple PLs, model sizes (0.2B to 14B parameters), and dataset sizes (1T tokens). We establish comprehensive scaling laws for code LLMs across multiple PLs, revealing that interpreted languages (e.g., Python) benefit more from increased model size and data than compiled languages (e.g., Rust). The study demonstrates that multilingual pre-training provides synergistic benefits, particularly between syntactically similar PLs. Further, the pre-training strategy of the parallel pairing (concatenating code snippets with their translations) significantly enhances cross-lingual abilities with favorable scaling properties. Finally, a proportion-dependent multilingual scaling law is proposed to optimally allocate training tokens by prioritizing high-utility PLs (e.g., Python), balancing high-synergy pairs (e.g., JavaScript-TypeScript), and reducing allocation to fast-saturating languages (Rust), achieving superior average performance across all PLs compared to uniform distribution under the same compute budget.

Leggi di Scalabilità per il Codice: Ogni Linguaggio di Programmazione Conta

Scaling Laws for Code: Every Programming Language Matters

Abstract

Support