Modelos de Linguagem de Regressão para Código

Resumo

Estudamos a regressão de código para métricas: a previsão de resultados numéricos da execução de código, uma tarefa desafiadora devido à natureza aberta das linguagens de programação. Enquanto métodos anteriores recorreram a engenharia de características pesada e específica do domínio, mostramos que um único Modelo de Linguagem de Regressão (RLM) unificado pode prever simultaneamente diretamente a partir do texto: (i) a pegada de memória do código em várias linguagens de alto nível, como Python e C++, (ii) a latência de kernels GPU Triton, e (iii) a precisão e velocidade de redes neurais treinadas representadas em ONNX. Em particular, um RLM relativamente pequeno com 300M de parâmetros, inicializado a partir do T5Gemma, obtém > 0,9 de Spearman-rank em submissões de programação competitiva do APPS, e um único modelo unificado alcança > 0,5 de Spearman-rank médio em 17 linguagens separadas do CodeNet. Além disso, o RLM pode obter o maior Kendall-Tau médio de 0,46 em cinco espaços de design clássicos de NAS anteriormente dominados por redes neurais gráficas, e prever simultaneamente as latências de arquitetura em diversas plataformas de hardware.

English

We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of programming languages. While prior methods have resorted to heavy and domain-specific feature engineering, we show that a single unified Regression Language Model (RLM) can simultaneously predict directly from text, (i) the memory footprint of code across multiple high-level languages such as Python and C++, (ii) the latency of Triton GPU kernels, and (iii) the accuracy and speed of trained neural networks represented in ONNX. In particular, a relatively small 300M parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on competitive programming submissions from APPS, and a single unified model achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet. Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five classic NAS design spaces previously dominated by graph neural networks, and simultaneously predict architecture latencies on numerous hardware platforms.

Modelos de Linguagem de Regressão para Código

Regression Language Models for Code

Resumo

Support