Afterburner : L'apprentissage par renforcement facilite l'optimisation auto-améliorante de l'efficacité du code
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization
May 29, 2025
Auteurs: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) génèrent des solutions fonctionnellement correctes, mais peinent souvent à atteindre une efficacité optimale du code, un goulot d'étranglement critique pour leur déploiement en conditions réelles. Dans cet article, nous introduisons un cadre novateur d'optimisation itérative au moment du test pour résoudre ce problème, en utilisant un système en boucle fermée où les LLMs affinent itérativement le code sur la base de retours d'expérience provenant d'un bac à sable d'exécution. Nous explorons trois stratégies d'entraînement : le Fine-Tuning Supervisé (SFT), l'Optimisation Directe des Préférences (DPO) et l'Optimisation Relative des Politiques par Groupe (GRPO). Les expériences menées sur notre ensemble de données Venus et le benchmark APPS montrent que le SFT et le DPO atteignent rapidement un plafond en termes de gains d'efficacité. En revanche, le GRPO, utilisant l'apprentissage par renforcement (RL) avec des retours d'exécution, optimise continuellement les performances du code, améliorant significativement à la fois le pass@1 (de 47 % à 62 %) et la probabilité de surpasser les soumissions humaines en efficacité (de 31 % à 45 %). Notre travail démontre une amélioration efficace de l'efficacité du code au moment du test et révèle de manière critique la puissance du RL pour enseigner aux LLMs à véritablement auto-améliorer l'efficacité du code.
English
Large Language Models (LLMs) generate functionally correct solutions but
often fall short in code efficiency, a critical bottleneck for real-world
deployment. In this paper, we introduce a novel test-time iterative
optimization framework to address this, employing a closed-loop system where
LLMs iteratively refine code based on empirical performance feedback from an
execution sandbox. We explore three training strategies: Supervised Fine-Tuning
(SFT), Direct Preference Optimization (DPO), and Group Relative Policy
Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark
show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO,
using reinforcement learning (RL) with execution feedback, continuously
optimizes code performance, significantly boosting both pass@1 (from 47% to
62%) and the likelihood of outperforming human submissions in efficiency (from
31% to 45%). Our work demonstrates effective test-time code efficiency
improvement and critically reveals the power of RL in teaching LLMs to truly
self-improve code efficiency.Summary
AI-Generated Summary