Regressionssprachmodelle für Code
Regression Language Models for Code
September 30, 2025
papers.authors: Yash Akhauri, Xingyou Song, Arissa Wongpanich, Bryan Lewandowski, Mohamed S. Abdelfattah
cs.AI
papers.abstract
Wir untersuchen Code-zu-Metrik-Regression: die Vorhersage numerischer Ergebnisse von Codeausführungen, eine anspruchsvolle Aufgabe aufgrund der offenen Natur von Programmiersprachen. Während frühere Methoden auf umfangreiche und domänenspezifische Feature-Engineering-Ansätze zurückgegriffen haben, zeigen wir, dass ein einheitliches Regression Language Model (RLM) gleichzeitig direkt aus Text vorhersagen kann: (i) den Speicherbedarf von Code über mehrere Hochsprachen wie Python und C++, (ii) die Latenz von Triton-GPU-Kerneln und (iii) die Genauigkeit und Geschwindigkeit von trainierten neuronalen Netzwerken, die in ONNX dargestellt sind. Insbesondere erreicht ein relativ kleines RLM mit 300M Parametern, das von T5Gemma initialisiert wurde, einen Spearman-Rang von > 0,9 bei Wettbewerbsprogrammierungs-Einreichungen aus APPS, und ein einheitliches Modell erreicht einen durchschnittlichen Spearman-Rang von > 0,5 über 17 separate Sprachen aus CodeNet. Darüber hinaus kann das RLM den höchsten durchschnittlichen Kendall-Tau-Wert von 0,46 in fünf klassischen NAS-Designräumen erzielen, die zuvor von Graph Neural Networks dominiert wurden, und gleichzeitig Architektur-Latenzen auf zahlreichen Hardware-Plattformen vorhersagen.
English
We study code-to-metric regression: predicting numeric outcomes of code
executions, a challenging task due to the open-ended nature of programming
languages. While prior methods have resorted to heavy and domain-specific
feature engineering, we show that a single unified Regression Language Model
(RLM) can simultaneously predict directly from text, (i) the memory footprint
of code across multiple high-level languages such as Python and C++, (ii) the
latency of Triton GPU kernels, and (iii) the accuracy and speed of trained
neural networks represented in ONNX. In particular, a relatively small 300M
parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on
competitive programming submissions from APPS, and a single unified model
achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet.
Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five
classic NAS design spaces previously dominated by graph neural networks, and
simultaneously predict architecture latencies on numerous hardware platforms.