ChatPaper.aiChatPaper

Afterburner: Обучение с подкреплением способствует самооптимизации эффективности кода

Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

May 29, 2025
Авторы: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
cs.AI

Аннотация

Крупные языковые модели (LLM) генерируют функционально корректные решения, но часто уступают в эффективности кода, что является критическим узким местом для реального применения. В данной статье мы представляем новую структуру итеративной оптимизации на этапе тестирования, используя замкнутую систему, в которой LLM итеративно улучшают код на основе эмпирической обратной связи от исполнения в песочнице. Мы исследуем три стратегии обучения: тонкую настройку с учителем (SFT), оптимизацию прямых предпочтений (DPO) и групповую относительную оптимизацию политик (GRPO). Эксперименты на нашем наборе данных Venus и бенчмарке APPS показывают, что SFT и DPO быстро достигают предела в улучшении эффективности. В отличие от них, GRPO, использующая обучение с подкреплением (RL) с обратной связью от исполнения, непрерывно оптимизирует производительность кода, значительно повышая как показатель pass@1 (с 47% до 62%), так и вероятность превосходства по эффективности над решениями, созданными людьми (с 31% до 45%). Наша работа демонстрирует эффективное улучшение эффективности кода на этапе тестирования и подчеркивает мощь RL в обучении LLM действительно самостоятельно повышать эффективность кода.
English
Large Language Models (LLMs) generate functionally correct solutions but often fall short in code efficiency, a critical bottleneck for real-world deployment. In this paper, we introduce a novel test-time iterative optimization framework to address this, employing a closed-loop system where LLMs iteratively refine code based on empirical performance feedback from an execution sandbox. We explore three training strategies: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Group Relative Policy Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO, using reinforcement learning (RL) with execution feedback, continuously optimizes code performance, significantly boosting both pass@1 (from 47% to 62%) and the likelihood of outperforming human submissions in efficiency (from 31% to 45%). Our work demonstrates effective test-time code efficiency improvement and critically reveals the power of RL in teaching LLMs to truly self-improve code efficiency.
PDF92May 30, 2025