Afterburner: Aprendizado por Reforço Facilita a Otimização Autônoma da Eficiência de Código
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization
May 29, 2025
Autores: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) geram soluções funcionalmente corretas, mas frequentemente ficam aquém em termos de eficiência de código, um gargalo crítico para implantação no mundo real. Neste artigo, introduzimos uma nova estrutura de otimização iterativa em tempo de teste para abordar esse problema, empregando um sistema de circuito fechado onde os LLMs refinam iterativamente o código com base em feedback de desempenho empírico de um ambiente de execução sandbox. Exploramos três estratégias de treinamento: Ajuste Fino Supervisionado (SFT), Otimização de Preferência Direta (DPO) e Otimização de Política Relativa em Grupo (GRPO). Experimentos em nosso conjunto de dados Venus e no benchmark APPS mostram que SFT e DPO rapidamente atingem saturação em ganhos de eficiência. Em contraste, GRPO, usando aprendizado por reforço (RL) com feedback de execução, otimiza continuamente o desempenho do código, aumentando significativamente tanto o pass@1 (de 47% para 62%) quanto a probabilidade de superar submissões humanas em eficiência (de 31% para 45%). Nosso trabalho demonstra uma melhoria eficaz na eficiência de código em tempo de teste e revela criticamente o poder do RL em ensinar LLMs a verdadeiramente auto-aprimorar a eficiência do código.
English
Large Language Models (LLMs) generate functionally correct solutions but
often fall short in code efficiency, a critical bottleneck for real-world
deployment. In this paper, we introduce a novel test-time iterative
optimization framework to address this, employing a closed-loop system where
LLMs iteratively refine code based on empirical performance feedback from an
execution sandbox. We explore three training strategies: Supervised Fine-Tuning
(SFT), Direct Preference Optimization (DPO), and Group Relative Policy
Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark
show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO,
using reinforcement learning (RL) with execution feedback, continuously
optimizes code performance, significantly boosting both pass@1 (from 47% to
62%) and the likelihood of outperforming human submissions in efficiency (from
31% to 45%). Our work demonstrates effective test-time code efficiency
improvement and critically reveals the power of RL in teaching LLMs to truly
self-improve code efficiency.