Regressie Taalmodellen voor Code

Samenvatting

We bestuderen code-naar-metric-regressie: het voorspellen van numerieke uitkomsten van code-uitvoeringen, een uitdagende taak vanwege de open-eindige aard van programmeertalen. Terwijl eerdere methoden zwaar leunden op domeinspecifieke feature-engineering, tonen we aan dat een enkelvoudig, verenigd Regression Language Model (RLM) tegelijkertijd direct vanuit tekst kan voorspellen: (i) het geheugengebruik van code over meerdere hogere programmeertalen zoals Python en C++, (ii) de latentie van Triton GPU-kernels, en (iii) de nauwkeurigheid en snelheid van getrainde neurale netwerken weergegeven in ONNX. In het bijzonder behaalt een relatief klein RLM met 300M parameters, geïnitialiseerd vanuit T5Gemma, een Spearman-rang van > 0.9 op competitieve programmeerinzendingen van APPS, en een enkel verenigd model bereikt een gemiddelde Spearman-rang van > 0.5 over 17 afzonderlijke talen van CodeNet. Bovendien kan het RLM de hoogste gemiddelde Kendall-Tau van 0.46 behalen op vijf klassieke NAS-ontwerpruimtes die voorheen werden gedomineerd door grafische neurale netwerken, en tegelijkertijd architectuurlatenties voorspellen op talrijke hardwareplatforms.

English

We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of programming languages. While prior methods have resorted to heavy and domain-specific feature engineering, we show that a single unified Regression Language Model (RLM) can simultaneously predict directly from text, (i) the memory footprint of code across multiple high-level languages such as Python and C++, (ii) the latency of Triton GPU kernels, and (iii) the accuracy and speed of trained neural networks represented in ONNX. In particular, a relatively small 300M parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on competitive programming submissions from APPS, and a single unified model achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet. Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five classic NAS design spaces previously dominated by graph neural networks, and simultaneously predict architecture latencies on numerous hardware platforms.

Regressie Taalmodellen voor Code

Regression Language Models for Code

Samenvatting

Support