ChatPaper.aiChatPaper

Meerstaps Code Generatie via Enkelstaps Beloningen

Multi-Turn Code Generation Through Single-Step Rewards

February 27, 2025
Auteurs: Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
cs.AI

Samenvatting

We behandelen het probleem van codegeneratie op basis van meervoudige uitvoeringsfeedback. Bestaande methoden genereren ofwel code zonder feedback of gebruiken complexe, hiërarchische reinforcement learning om meervoudige beloningen te optimaliseren. We stellen een eenvoudige maar schaalbare aanpak voor, muCode, die meervoudige codegeneratie oplost met behulp van slechts enkelvoudige beloningen. Onze belangrijkste inzicht is dat codegeneratie een eenstaps herstelbaar MDP is, waarbij de correcte code in één stap kan worden hersteld vanuit elke tussenliggende codetoestand. muCode traint iteratief zowel een generator om codeoplossingen te bieden op basis van meervoudige uitvoeringsfeedback als een verifier om de nieuw gegenereerde code te beoordelen. Experimentele evaluaties tonen aan dat onze aanpak significante verbeteringen bereikt ten opzichte van de state-of-the-art baselines. We bieden een analyse van de ontwerpkeuzes van de beloningsmodellen en het beleid, en tonen de effectiviteit van muCode aan bij het benutten van de uitvoeringsfeedback. Onze code is beschikbaar op https://github.com/portal-cornell/muCode.
English
We address the problem of code generation from multi-turn execution feedback. Existing methods either generate code without feedback or use complex, hierarchical reinforcement learning to optimize multi-turn rewards. We propose a simple yet scalable approach, muCode, that solves multi-turn code generation using only single-step rewards. Our key insight is that code generation is a one-step recoverable MDP, where the correct code can be recovered from any intermediate code state in a single turn. muCode iteratively trains both a generator to provide code solutions conditioned on multi-turn execution feedback and a verifier to score the newly generated code. Experimental evaluations show that our approach achieves significant improvements over the state-of-the-art baselines. We provide analysis of the design choices of the reward models and policy, and show the efficacy of muCode at utilizing the execution feedback. Our code is available at https://github.com/portal-cornell/muCode.
PDF322March 3, 2025