Skalierungsgesetze für Code: Jede Programmiersprache zählt

Zusammenfassung

Code Large Language Models (Code LLMs) sind leistungsstark, aber mit hohen Trainingskosten verbunden, wobei Skalierungsgesetze die Leistung anhand von Modellgröße, Datenmenge und Rechenaufwand vorhersagen. Allerdings haben verschiedene Programmiersprachen (PLs) unterschiedlich starke Auswirkungen während des Pre-Trainings, die die Basismodellleistung erheblich beeinflussen und zu ungenauen Leistungsvorhersagen führen. Zudem konzentrieren sich bestehende Arbeiten auf sprachunabhängige Settings und vernachlässigen die inhärent mehrsprachige Natur moderner Softwareentwicklung. Daher ist es zunächst notwendig, die Skalierungsgesetze der verschiedenen PLs zu untersuchen und anschließend ihre gegenseitigen Beeinflussungen zu berücksichtigen, um zum endgültigen multilingualen Skalierungsgesetz zu gelangen. In dieser Arbeit präsentieren wir die erste systematische Untersuchung von Skalierungsgesetzen für multilinguales Code-Pre-Training, indem wir über 1000 Experimente (entsprechend mehr als 336.000 H800-Stunden) über mehrere PLs, Modellgrößen (0,2B bis 14B Parameter) und Datensatzgrößen (1T Tokens) hinweg durchführen. Wir etablieren umfassende Skalierungsgesetze für Code-LLMs über mehrere PLs hinweg und zeigen, dass interpretierte Sprachen (z.B. Python) mehr von erhöhter Modellgröße und Datenmenge profitieren als kompilierte Sprachen (z.B. Rust). Die Studie belegt, dass multilinguales Pre-Training synergetische Vorteile bietet, insbesondere zwischen syntaktisch ähnlichen PLs. Darüber hinaus verbessert die Pre-Training-Strategie des parallelen Pairings (Zusammenfügen von Code-Snippets mit ihren Übersetzungen) die cross-lingualen Fähigkeiten signifikant und weist günstige Skalierungseigenschaften auf. Schließlich wird ein proportionalitätsabhängiges multilinguales Skalierungsgesetz vorgeschlagen, um Trainings-Tokens optimal zuzuteilen, indem hochwertige PLs (z.B. Python) priorisiert, hochsynergetische Paare (z.B. JavaScript-TypeScript) ausbalanciert und die Zuteilung für schnell sättigende Sprachen (Rust) reduziert wird. Dies erzielt eine überlegene durchschnittliche Leistung über alle PLs hinweg im Vergleich zur Gleichverteilung unter demselben Rechenbudget.

English

Code large language models (Code LLMs) are powerful but costly to train, with scaling laws predicting performance from model size, data, and compute. However, different programming languages (PLs) have varying impacts during pre-training that significantly affect base model performance, leading to inaccurate performance prediction. Besides, existing works focus on language-agnostic settings, neglecting the inherently multilingual nature of modern software development. Therefore, it is first necessary to investigate the scaling laws of different PLs, and then consider their mutual influences to arrive at the final multilingual scaling law. In this paper, we present the first systematic exploration of scaling laws for multilingual code pre-training, conducting over 1000+ experiments (Equivalent to 336,000+ H800 hours) across multiple PLs, model sizes (0.2B to 14B parameters), and dataset sizes (1T tokens). We establish comprehensive scaling laws for code LLMs across multiple PLs, revealing that interpreted languages (e.g., Python) benefit more from increased model size and data than compiled languages (e.g., Rust). The study demonstrates that multilingual pre-training provides synergistic benefits, particularly between syntactically similar PLs. Further, the pre-training strategy of the parallel pairing (concatenating code snippets with their translations) significantly enhances cross-lingual abilities with favorable scaling properties. Finally, a proportion-dependent multilingual scaling law is proposed to optimally allocate training tokens by prioritizing high-utility PLs (e.g., Python), balancing high-synergy pairs (e.g., JavaScript-TypeScript), and reducing allocation to fast-saturating languages (Rust), achieving superior average performance across all PLs compared to uniform distribution under the same compute budget.

Skalierungsgesetze für Code: Jede Programmiersprache zählt

Scaling Laws for Code: Every Programming Language Matters

Zusammenfassung

Support