Modelos de Lenguaje de Regresión para Código

Resumen

Estudiamos la regresión de código a métrica: la predicción de resultados numéricos de ejecuciones de código, una tarea desafiante debido a la naturaleza abierta de los lenguajes de programación. Mientras que métodos anteriores han recurrido a una ingeniería de características extensa y específica del dominio, demostramos que un único Modelo de Lenguaje de Regresión (RLM, por sus siglas en inglés) unificado puede predecir simultáneamente directamente desde texto: (i) la huella de memoria del código en múltiples lenguajes de alto nivel como Python y C++, (ii) la latencia de kernels de GPU Triton, y (iii) la precisión y velocidad de redes neuronales entrenadas representadas en ONNX. En particular, un RLM relativamente pequeño de 300 millones de parámetros inicializado desde T5Gemma obtiene un coeficiente de Spearman > 0.9 en envíos de programación competitiva de APPS, y un único modelo unificado logra un coeficiente de Spearman promedio > 0.5 en 17 lenguajes separados de CodeNet. Además, el RLM puede alcanzar el mayor coeficiente de Kendall-Tau promedio de 0.46 en cinco espacios de diseño clásicos de NAS previamente dominados por redes neuronales de grafos, y predecir simultáneamente las latencias de arquitecturas en numerosas plataformas de hardware.

English

We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of programming languages. While prior methods have resorted to heavy and domain-specific feature engineering, we show that a single unified Regression Language Model (RLM) can simultaneously predict directly from text, (i) the memory footprint of code across multiple high-level languages such as Python and C++, (ii) the latency of Triton GPU kernels, and (iii) the accuracy and speed of trained neural networks represented in ONNX. In particular, a relatively small 300M parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on competitive programming submissions from APPS, and a single unified model achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet. Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five classic NAS design spaces previously dominated by graph neural networks, and simultaneously predict architecture latencies on numerous hardware platforms.

Modelos de Lenguaje de Regresión para Código

Regression Language Models for Code

Resumen

Support