Mehrschrittige Codegenerierung durch Einzelschritt-Belohnungen

Zusammenfassung

Wir behandeln das Problem der Codegenerierung aus mehrstufigem Ausführungsfeedback. Bestehende Methoden generieren entweder Code ohne Feedback oder verwenden komplexes, hierarchisches Reinforcement Learning, um mehrstufige Belohnungen zu optimieren. Wir schlagen einen einfachen, aber skalierbaren Ansatz vor, muCode, der die mehrstufige Codegenerierung unter Verwendung nur einstufiger Belohnungen löst. Unsere zentrale Erkenntnis ist, dass die Codegenerierung ein einstufig wiederherstellbares MDP (Markov Decision Process) ist, bei dem der korrekte Code aus jedem Zwischenzustand des Codes in einer einzigen Stufe wiederhergestellt werden kann. muCode trainiert iterativ sowohl einen Generator, der Code-Lösungen basierend auf mehrstufigem Ausführungsfeedback bereitstellt, als auch einen Verifizierer, der den neu generierten Code bewertet. Experimentelle Auswertungen zeigen, dass unser Ansatz signifikante Verbesserungen gegenüber den state-of-the-art Baselines erzielt. Wir bieten eine Analyse der Designentscheidungen der Belohnungsmodelle und der Policy und zeigen die Wirksamkeit von muCode bei der Nutzung des Ausführungsfeedbacks. Unser Code ist verfügbar unter https://github.com/portal-cornell/muCode.

English

We address the problem of code generation from multi-turn execution feedback. Existing methods either generate code without feedback or use complex, hierarchical reinforcement learning to optimize multi-turn rewards. We propose a simple yet scalable approach, muCode, that solves multi-turn code generation using only single-step rewards. Our key insight is that code generation is a one-step recoverable MDP, where the correct code can be recovered from any intermediate code state in a single turn. muCode iteratively trains both a generator to provide code solutions conditioned on multi-turn execution feedback and a verifier to score the newly generated code. Experimental evaluations show that our approach achieves significant improvements over the state-of-the-art baselines. We provide analysis of the design choices of the reward models and policy, and show the efficacy of muCode at utilizing the execution feedback. Our code is available at https://github.com/portal-cornell/muCode.

Mehrschrittige Codegenerierung durch Einzelschritt-Belohnungen

Multi-Turn Code Generation Through Single-Step Rewards

Zusammenfassung

Support