Schaalwetten voor Code: Elke Programmeertaal Doet Ertoe

Samenvatting

Code Large Language Models (Code LLM's) zijn krachtig maar kostbaar om te trainen, waarbij schaalwetten de prestaties voorspellen op basis van modelgrootte, data en rekenkracht. Echter, verschillende programmeertalen hebben uiteenlopende impact tijdens de voorafgaande training die de basisprestaties van het model significant beïnvloedt, wat leidt tot onnauwkeurige prestatievoorspelling. Bovendien richten bestaande werken zich op taal-agnostische instellingen, waarbij de inherent meertalige aard van moderne softwareontwikkeling wordt verwaarloosd. Daarom is het eerst nodig om de schaalwetten van verschillende programmeertalen te onderzoeken, en vervolgens hun wederzijdse invloeden in overweging te nemen om tot de uiteindelijke meertalige schaalwet te komen. In dit artikel presenteren we de eerste systematische verkenning van schaalwetten voor meertalige code-voorafgaande-training, waarbij we meer dan 1000 experimenten uitvoeren (gelijk aan meer dan 336.000 H800-uren) over meerdere programmeertalen, modelgroottes (0,2B tot 14B parameters) en datasetgroottes (1T tokens). We stellen uitgebreide schaalwetten vast voor code-LLM's over meerdere programmeertalen, waaruit blijkt dat geïnterpreteerde talen (bijv. Python) meer baat hebben bij een grotere modelgrootte en data dan gecompileerde talen (bijv. Rust). De studie toont aan dat meertalige voorafgaande training synergetische voordelen biedt, vooral tussen syntactisch vergelijkbare programmeertalen. Verder verbetert de voorafgaande trainingsstrategie van parallelle koppeling (het aaneenschakelen van codefragmenten met hun vertalingen) de cross-linguale vaardigheden significant met gunstige schaaleigenschappen. Ten slotte wordt een proportie-afhankelijke meertalige schaalwet voorgesteld om trainings-tokens optimaal toe te wijzen door prioriteit te geven aan programmeertalen met hoge bruikbaarheid (bijv. Python), hoog-synergistische paren in evenwicht te brengen (bijv. JavaScript-TypeScript) en de toewijzing aan snel-verzadigende talen (Rust) te verminderen, wat een superieure gemiddelde prestatie over alle programmeertalen bereikt in vergelijking met uniforme verdeling onder hetzelfde rekenbudget.

English

Code large language models (Code LLMs) are powerful but costly to train, with scaling laws predicting performance from model size, data, and compute. However, different programming languages (PLs) have varying impacts during pre-training that significantly affect base model performance, leading to inaccurate performance prediction. Besides, existing works focus on language-agnostic settings, neglecting the inherently multilingual nature of modern software development. Therefore, it is first necessary to investigate the scaling laws of different PLs, and then consider their mutual influences to arrive at the final multilingual scaling law. In this paper, we present the first systematic exploration of scaling laws for multilingual code pre-training, conducting over 1000+ experiments (Equivalent to 336,000+ H800 hours) across multiple PLs, model sizes (0.2B to 14B parameters), and dataset sizes (1T tokens). We establish comprehensive scaling laws for code LLMs across multiple PLs, revealing that interpreted languages (e.g., Python) benefit more from increased model size and data than compiled languages (e.g., Rust). The study demonstrates that multilingual pre-training provides synergistic benefits, particularly between syntactically similar PLs. Further, the pre-training strategy of the parallel pairing (concatenating code snippets with their translations) significantly enhances cross-lingual abilities with favorable scaling properties. Finally, a proportion-dependent multilingual scaling law is proposed to optimally allocate training tokens by prioritizing high-utility PLs (e.g., Python), balancing high-synergy pairs (e.g., JavaScript-TypeScript), and reducing allocation to fast-saturating languages (Rust), achieving superior average performance across all PLs compared to uniform distribution under the same compute budget.

Schaalwetten voor Code: Elke Programmeertaal Doet Ertoe

Scaling Laws for Code: Every Programming Language Matters

Samenvatting

Support