Afterburner: El Aprendizaje por Refuerzo Facilita la Optimización Automejorable de la Eficiencia del Código
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization
May 29, 2025
Autores: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) generan soluciones funcionalmente correctas, pero a menudo no alcanzan la eficiencia en el código, un cuello de botella crítico para su implementación en el mundo real. En este artículo, presentamos un novedoso marco de optimización iterativa en tiempo de prueba para abordar este problema, empleando un sistema de bucle cerrado donde los LLMs refinan iterativamente el código basándose en retroalimentación empírica de rendimiento proveniente de un entorno de ejecución controlado. Exploramos tres estrategias de entrenamiento: Ajuste Fino Supervisado (SFT), Optimización Directa de Preferencias (DPO) y Optimización de Política Relativa de Grupo (GRPO). Los experimentos en nuestro conjunto de datos Venus y el benchmark APPS muestran que SFT y DPO alcanzan rápidamente un límite en las mejoras de eficiencia. En contraste, GRPO, utilizando aprendizaje por refuerzo (RL) con retroalimentación de ejecución, optimiza continuamente el rendimiento del código, mejorando significativamente tanto el pass@1 (del 47% al 62%) como la probabilidad de superar las soluciones humanas en eficiencia (del 31% al 45%). Nuestro trabajo demuestra una mejora efectiva en la eficiencia del código durante las pruebas y revela críticamente el poder del RL para enseñar a los LLMs a automejorar verdaderamente la eficiencia del código.
English
Large Language Models (LLMs) generate functionally correct solutions but
often fall short in code efficiency, a critical bottleneck for real-world
deployment. In this paper, we introduce a novel test-time iterative
optimization framework to address this, employing a closed-loop system where
LLMs iteratively refine code based on empirical performance feedback from an
execution sandbox. We explore three training strategies: Supervised Fine-Tuning
(SFT), Direct Preference Optimization (DPO), and Group Relative Policy
Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark
show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO,
using reinforcement learning (RL) with execution feedback, continuously
optimizes code performance, significantly boosting both pass@1 (from 47% to
62%) and the likelihood of outperforming human submissions in efficiency (from
31% to 45%). Our work demonstrates effective test-time code efficiency
improvement and critically reveals the power of RL in teaching LLMs to truly
self-improve code efficiency.Summary
AI-Generated Summary