Miglioramento delle Prestazioni del Codice Assembly con Modelli Linguistici di Grande Scala tramite Apprendimento per Rinforzo

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato prestazioni solide in un'ampia gamma di attività di programmazione, ma il loro potenziale per l'ottimizzazione del codice rimane ancora poco esplorato. Questo lavoro indaga se gli LLM possano ottimizzare le prestazioni del codice assembly, dove un controllo fine sull'esecuzione consente miglioramenti difficili da esprimere nei linguaggi di alto livello. Presentiamo un framework di apprendimento per rinforzo che addestra gli LLM utilizzando l'ottimizzazione delle politiche prossimali (PPO), guidato da una funzione di ricompensa che considera sia la correttezza funzionale, validata attraverso casi di test, sia le prestazioni di esecuzione rispetto al compilatore di riferimento del settore gcc -O3. Per supportare questo studio, introduciamo un benchmark di 8.072 programmi reali. Il nostro modello, Qwen2.5-Coder-7B-PPO, raggiunge un tasso di superamento dei test del 96,0% e un miglioramento medio delle prestazioni di 1,47x rispetto alla baseline gcc -O3, superando tutti gli altri 20 modelli valutati, incluso Claude-3.7-sonnet. Questi risultati indicano che l'apprendimento per rinforzo può sbloccare il potenziale degli LLM per fungere da ottimizzatori efficaci delle prestazioni del codice assembly.

English

Large language models (LLMs) have demonstrated strong performance across a wide range of programming tasks, yet their potential for code optimization remains underexplored. This work investigates whether LLMs can optimize the performance of assembly code, where fine-grained control over execution enables improvements that are difficult to express in high-level languages. We present a reinforcement learning framework that trains LLMs using Proximal Policy Optimization (PPO), guided by a reward function that considers both functional correctness, validated through test cases, and execution performance relative to the industry-standard compiler gcc -O3. To support this study, we introduce a benchmark of 8,072 real-world programs. Our model, Qwen2.5-Coder-7B-PPO, achieves 96.0% test pass rates and an average speedup of 1.47x over the gcc -O3 baseline, outperforming all 20 other models evaluated, including Claude-3.7-sonnet. These results indicate that reinforcement learning can unlock the potential of LLMs to serve as effective optimizers for assembly code performance.

Miglioramento delle Prestazioni del Codice Assembly con Modelli Linguistici di Grande Scala tramite Apprendimento per Rinforzo

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

Abstract

Support