Регрессионные языковые модели для кода
Regression Language Models for Code
September 30, 2025
Авторы: Yash Akhauri, Xingyou Song, Arissa Wongpanich, Bryan Lewandowski, Mohamed S. Abdelfattah
cs.AI
Аннотация
Мы исследуем задачу регрессии "код-метрика": предсказание числовых результатов выполнения кода, что является сложной задачей из-за открытой природы языков программирования. В то время как предыдущие методы полагались на трудоемкое и специфичное для предметной области проектирование признаков, мы показываем, что единая модель регрессии на основе языка (Regression Language Model, RLM) может одновременно предсказывать непосредственно из текста (i) объем памяти, занимаемый кодом на нескольких высокоуровневых языках, таких как Python и C++, (ii) задержку выполнения ядер Triton на GPU, а также (iii) точность и скорость обученных нейронных сетей, представленных в формате ONNX. В частности, относительно небольшая RLM с 300 миллионами параметров, инициализированная на основе T5Gemma, достигает значения Spearman-rank > 0.9 на решениях задач по конкурентному программированию из набора данных APPS, а единая модель достигает среднего значения Spearman-rank > 0.5 на 17 различных языках из набора данных CodeNet. Более того, RLM достигает наивысшего среднего значения Kendall-Tau, равного 0.46, на пяти классических пространствах проектирования нейронных архитектур (NAS), ранее доминируемых графовыми нейронными сетями, и одновременно предсказывает задержки архитектур на множестве аппаратных платформ.
English
We study code-to-metric regression: predicting numeric outcomes of code
executions, a challenging task due to the open-ended nature of programming
languages. While prior methods have resorted to heavy and domain-specific
feature engineering, we show that a single unified Regression Language Model
(RLM) can simultaneously predict directly from text, (i) the memory footprint
of code across multiple high-level languages such as Python and C++, (ii) the
latency of Triton GPU kernels, and (iii) the accuracy and speed of trained
neural networks represented in ONNX. In particular, a relatively small 300M
parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on
competitive programming submissions from APPS, and a single unified model
achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet.
Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five
classic NAS design spaces previously dominated by graph neural networks, and
simultaneously predict architecture latencies on numerous hardware platforms.