ChatPaper.aiChatPaper

Afterburner: Reinforcement Learning ermöglicht selbstverbessernde Code-Effizienzoptimierung

Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

May 29, 2025
Autoren: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) generieren funktional korrekte Lösungen, erreichen jedoch oft nicht die erforderliche Code-Effizienz, was ein kritischer Engpass für den Einsatz in der Praxis darstellt. In diesem Artikel stellen wir ein neuartiges Framework zur iterativen Optimierung zur Laufzeit vor, das ein geschlossenes System verwendet, in dem LLMs den Code basierend auf empirischen Leistungsrückmeldungen aus einer Ausführungsumgebung iterativ verfeinern. Wir untersuchen drei Trainingsstrategien: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) und Group Relative Policy Optimization (GRPO). Experimente auf unserem Venus-Datensatz und dem APPS-Benchmark zeigen, dass SFT und DPO schnell in Bezug auf Effizienzgewinne gesättigt sind. Im Gegensatz dazu optimiert GRPO, das Verstärkungslernen (RL) mit Ausführungsfeedback nutzt, die Codeleistung kontinuierlich und steigert sowohl die pass@1-Rate (von 47 % auf 62 %) als auch die Wahrscheinlichkeit, menschliche Einreichungen in der Effizienz zu übertreffen (von 31 % auf 45 %). Unsere Arbeit demonstriert eine effektive Verbesserung der Code-Effizienz zur Laufzeit und zeigt kritisch die Stärke von RL auf, LLMs beizubringen, die Code-Effizienz wirklich selbst zu verbessern.
English
Large Language Models (LLMs) generate functionally correct solutions but often fall short in code efficiency, a critical bottleneck for real-world deployment. In this paper, we introduce a novel test-time iterative optimization framework to address this, employing a closed-loop system where LLMs iteratively refine code based on empirical performance feedback from an execution sandbox. We explore three training strategies: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Group Relative Policy Optimization~(GRPO). Experiments on our Venus dataset and the APPS benchmark show that SFT and DPO rapidly saturate in efficiency gains. In contrast, GRPO, using reinforcement learning (RL) with execution feedback, continuously optimizes code performance, significantly boosting both pass@1 (from 47% to 62%) and the likelihood of outperforming human submissions in efficiency (from 31% to 45%). Our work demonstrates effective test-time code efficiency improvement and critically reveals the power of RL in teaching LLMs to truly self-improve code efficiency.

Summary

AI-Generated Summary

PDF72May 30, 2025