ChatPaper.aiChatPaper

코드를 위한 회귀 언어 모델

Regression Language Models for Code

September 30, 2025
저자: Yash Akhauri, Xingyou Song, Arissa Wongpanich, Bryan Lewandowski, Mohamed S. Abdelfattah
cs.AI

초록

우리는 코드 실행의 수치적 결과를 예측하는 코드-메트릭 회귀(Code-to-Metric Regression)를 연구합니다. 이는 프로그래밍 언어의 개방성으로 인해 어려운 과제입니다. 기존 방법들은 복잡하고 도메인 특화된 특징 공학에 의존해왔지만, 우리는 단일 통합 회귀 언어 모델(Regression Language Model, RLM)이 텍스트에서 직접 (i) Python 및 C++과 같은 여러 고수준 언어의 코드 메모리 사용량, (ii) Triton GPU 커널의 지연 시간, 그리고 (iii) ONNX로 표현된 훈련된 신경망의 정확도와 속도를 동시에 예측할 수 있음을 보여줍니다. 특히, T5Gemma로 초기화된 비교적 작은 300M 파라미터의 RLM은 APPS의 경쟁 프로그래밍 제출물에서 0.9 이상의 스피어만 순위 상관계수를 달성했으며, 단일 통합 모델은 CodeNet의 17개 별도 언어에서 평균 0.5 이상의 스피어만 순위 상관계수를 달성했습니다. 더 나아가, RLM은 그래프 신경망에 의해 주도되었던 5개의 고전적인 NAS 설계 공간에서 0.46의 최고 평균 켄달 타우를 달성할 수 있으며, 동시에 다양한 하드웨어 플랫폼에서의 아키텍처 지연 시간을 예측할 수 있습니다.
English
We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of programming languages. While prior methods have resorted to heavy and domain-specific feature engineering, we show that a single unified Regression Language Model (RLM) can simultaneously predict directly from text, (i) the memory footprint of code across multiple high-level languages such as Python and C++, (ii) the latency of Triton GPU kernels, and (iii) the accuracy and speed of trained neural networks represented in ONNX. In particular, a relatively small 300M parameter RLM initialized from T5Gemma, obtains > 0.9 Spearman-rank on competitive programming submissions from APPS, and a single unified model achieves > 0.5 average Spearman-rank across 17 separate languages from CodeNet. Furthermore, the RLM can obtain the highest average Kendall-Tau of 0.46 on five classic NAS design spaces previously dominated by graph neural networks, and simultaneously predict architecture latencies on numerous hardware platforms.
PDF42October 1, 2025