Modelli Linguistici di Regressione per il Codice

Abstract

Studiamo la regressione da codice a metrica: la previsione di risultati numerici derivanti dall'esecuzione di codice, un compito impegnativo a causa della natura aperta dei linguaggi di programmazione. Mentre i metodi precedenti hanno fatto ricorso a un'ingegnerizzazione di caratteristiche complessa e specifica per dominio, dimostriamo che un singolo modello di linguaggio per regressione (Regression Language Model, RLM) unificato può prevedere direttamente dal testo: (i) l'impronta di memoria del codice in più linguaggi di alto livello come Python e C++, (ii) la latenza dei kernel GPU Triton, e (iii) l'accuratezza e la velocità di reti neurali addestrate rappresentate in ONNX. In particolare, un RLM relativamente piccolo da 300 milioni di parametri, inizializzato da T5Gemma, ottiene un coefficiente di Spearman > 0,9 su submission di programmazione competitiva provenienti da APPS, e un singolo modello unificato raggiunge una media di Spearman > 0,5 su 17 linguaggi separati di CodeNet. Inoltre, l'RLM può ottenere il più alto valore medio di Kendall-Tau pari a 0,46 su cinque classici spazi di progettazione NAS precedentemente dominati da reti neurali grafiche, e prevedere simultaneamente le latenze delle architetture su numerose piattaforme hardware.

English

We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of programming languages. While prior methods have resorted to heavy and domain-specific feature engineering, we show that a single unified Regression Language Model (RLM) can simultaneously predict directly from text, (i) the memory footprint of code across multiple high-level languages such as Python and C++, (ii) the latency of Triton GPU kernels, and (iii) the accuracy and speed of trained neural networks represented in ONNX. In particular, a relatively small 300M parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on competitive programming submissions from APPS, and a single unified model achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet. Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five classic NAS design spaces previously dominated by graph neural networks, and simultaneously predict architecture latencies on numerous hardware platforms.

Modelli Linguistici di Regressione per il Codice

Regression Language Models for Code

Abstract

Support