Modèles de langage de régression pour le code
Regression Language Models for Code
September 30, 2025
papers.authors: Yash Akhauri, Xingyou Song, Arissa Wongpanich, Bryan Lewandowski, Mohamed S. Abdelfattah
cs.AI
papers.abstract
Nous étudions la régression code-vers-métrique : la prédiction de résultats numériques issus de l'exécution de code, une tâche complexe en raison de la nature ouverte des langages de programmation. Alors que les méthodes précédentes ont eu recours à un ingénierie de caractéristiques lourde et spécifique au domaine, nous montrons qu'un modèle de langage de régression unifié (RLM) peut prédire simultanément directement à partir du texte : (i) l'empreinte mémoire du code dans plusieurs langages de haut niveau tels que Python et C++, (ii) la latence des noyaux GPU Triton, et (iii) la précision et la vitesse des réseaux de neurones entraînés représentés en ONNX. En particulier, un RLM relativement petit de 300 millions de paramètres initialisé à partir de T5Gemma obtient un Spearman-rank > 0,9 sur des soumissions de programmation compétitive provenant d'APPS, et un modèle unifié unique atteint un Spearman-rank moyen > 0,5 sur 17 langages distincts de CodeNet. De plus, le RLM peut obtenir le Kendall-Tau moyen le plus élevé de 0,46 sur cinq espaces de conception classiques de NAS précédemment dominés par les réseaux de neurones graphiques, et prédire simultanément les latences d'architecture sur de nombreuses plateformes matérielles.
English
We study code-to-metric regression: predicting numeric outcomes of code
executions, a challenging task due to the open-ended nature of programming
languages. While prior methods have resorted to heavy and domain-specific
feature engineering, we show that a single unified Regression Language Model
(RLM) can simultaneously predict directly from text, (i) the memory footprint
of code across multiple high-level languages such as Python and C++, (ii) the
latency of Triton GPU kernels, and (iii) the accuracy and speed of trained
neural networks represented in ONNX. In particular, a relatively small 300M
parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on
competitive programming submissions from APPS, and a single unified model
achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet.
Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five
classic NAS design spaces previously dominated by graph neural networks, and
simultaneously predict architecture latencies on numerous hardware platforms.