Afterburner: Reinforcement Learning maakt zelfverbeterende code-efficiëntieoptimalisatie mogelijk
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization
May 29, 2025
Auteurs: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) genereren functioneel correcte oplossingen, maar schieten vaak tekort in code-efficiëntie, een kritieke bottleneck voor implementatie in de praktijk. In dit artikel introduceren we een nieuw testtijd iteratief optimalisatiekader om dit aan te pakken, waarbij we een gesloten systeem gebruiken waarin LLMs code iteratief verfijnen op basis van empirische prestatiefeedback vanuit een uitvoeringssandbox. We onderzoeken drie trainingsstrategieën: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) en Group Relative Policy Optimization (GRPO). Experimenten op onze Venus-dataset en de APPS-benchmark laten zien dat SFT en DPO snel verzadigen in efficiëntiewinsten. In tegenstelling daartoe optimaliseert GRPO, dat gebruikmaakt van reinforcement learning (RL) met uitvoeringsfeedback, de code-prestaties continu, wat zowel de pass@1 aanzienlijk verbetert (van 47% naar 62%) als de kans vergroot om menselijke inzendingen in efficiëntie te overtreffen (van 31% naar 45%). Ons werk toont effectieve testtijd verbetering van code-efficiëntie aan en onthult kritisch de kracht van RL in het leren van LLMs om code-efficiëntie daadwerkelijk zelf te verbeteren.
English
Large Language Models (LLMs) generate functionally correct solutions but
often fall short in code efficiency, a critical bottleneck for real-world
deployment. In this paper, we introduce a novel test-time iterative
optimization framework to address this, employing a closed-loop system where
LLMs iteratively refine code based on empirical performance feedback from an
execution sandbox. We explore three training strategies: Supervised Fine-Tuning
(SFT), Direct Preference Optimization (DPO), and Group Relative Policy
Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark
show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO,
using reinforcement learning (RL) with execution feedback, continuously
optimizes code performance, significantly boosting both pass@1 (from 47% to
62%) and the likelihood of outperforming human submissions in efficiency (from
31% to 45%). Our work demonstrates effective test-time code efficiency
improvement and critically reveals the power of RL in teaching LLMs to truly
self-improve code efficiency.