Generazione di Codice Multi-Turn Attraverso Ricompense a Singolo Passo
Multi-Turn Code Generation Through Single-Step Rewards
February 27, 2025
Autori: Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
cs.AI
Abstract
Affrontiamo il problema della generazione di codice a partire da feedback di esecuzione multi-turn. I metodi esistenti generano codice senza considerare il feedback o utilizzano complessi approcci di reinforcement learning gerarchico per ottimizzare ricompense multi-turn. Proponiamo un approccio semplice ma scalabile, muCode, che risolve la generazione di codice multi-turn utilizzando solo ricompense a singolo passo. La nostra intuizione chiave è che la generazione di codice è un MDP recuperabile in un solo passo, dove il codice corretto può essere recuperato da qualsiasi stato intermedio del codice in un singolo turno. muCode addestra iterativamente sia un generatore per fornire soluzioni di codice condizionate su feedback di esecuzione multi-turn, sia un verificatore per valutare il codice appena generato. Le valutazioni sperimentali dimostrano che il nostro approccio ottiene miglioramenti significativi rispetto ai metodi baselines più avanzati. Forniamo un'analisi delle scelte progettuali dei modelli di ricompensa e della politica, e mostriamo l'efficacia di muCode nell'utilizzare il feedback di esecuzione. Il nostro codice è disponibile all'indirizzo https://github.com/portal-cornell/muCode.
English
We address the problem of code generation from multi-turn execution feedback.
Existing methods either generate code without feedback or use complex,
hierarchical reinforcement learning to optimize multi-turn rewards. We propose
a simple yet scalable approach, muCode, that solves multi-turn code
generation using only single-step rewards. Our key insight is that code
generation is a one-step recoverable MDP, where the correct code can be
recovered from any intermediate code state in a single turn. muCode
iteratively trains both a generator to provide code solutions conditioned on
multi-turn execution feedback and a verifier to score the newly generated code.
Experimental evaluations show that our approach achieves significant
improvements over the state-of-the-art baselines. We provide analysis of the
design choices of the reward models and policy, and show the efficacy of
muCode at utilizing the execution feedback. Our code is available at
https://github.com/portal-cornell/muCode.Summary
AI-Generated Summary