Afterburner: L'Apprendimento per Rinforzo Facilita l'Ottimizzazione Autonoma dell'Efficienza del Codice
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization
May 29, 2025
Autori: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
cs.AI
Abstract
I Large Language Model (LLM) generano soluzioni funzionalmente corrette ma spesso non raggiungono l'efficienza del codice, un collo di bottiglia critico per il deployment nel mondo reale. In questo articolo, introduciamo un nuovo framework di ottimizzazione iterativa al momento del test per affrontare questo problema, impiegando un sistema a ciclo chiuso in cui gli LLM affinano iterativamente il codice basandosi su feedback empirici di prestazioni provenienti da un sandbox di esecuzione. Esploriamo tre strategie di addestramento: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) e Group Relative Policy Optimization (GRPO). Gli esperimenti sul nostro dataset Venus e sul benchmark APPS mostrano che SFT e DPO saturano rapidamente i guadagni in termini di efficienza. Al contrario, GRPO, utilizzando il reinforcement learning (RL) con feedback di esecuzione, ottimizza continuamente le prestazioni del codice, migliorando significativamente sia il pass@1 (dal 47% al 62%) sia la probabilità di superare i contributi umani in termini di efficienza (dal 31% al 45%). Il nostro lavoro dimostra un miglioramento efficace dell'efficienza del codice al momento del test e rivela in modo critico il potere del RL nell'insegnare agli LLM a migliorare veramente l'efficienza del codice in modo autonomo.
English
Large Language Models (LLMs) generate functionally correct solutions but
often fall short in code efficiency, a critical bottleneck for real-world
deployment. In this paper, we introduce a novel test-time iterative
optimization framework to address this, employing a closed-loop system where
LLMs iteratively refine code based on empirical performance feedback from an
execution sandbox. We explore three training strategies: Supervised Fine-Tuning
(SFT), Direct Preference Optimization (DPO), and Group Relative Policy
Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark
show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO,
using reinforcement learning (RL) with execution feedback, continuously
optimizes code performance, significantly boosting both pass@1 (from 47% to
62%) and the likelihood of outperforming human submissions in efficiency (from
31% to 45%). Our work demonstrates effective test-time code efficiency
improvement and critically reveals the power of RL in teaching LLMs to truly
self-improve code efficiency.