Génération de code multi-tours grâce à des récompenses en une seule étape
Multi-Turn Code Generation Through Single-Step Rewards
February 27, 2025
Auteurs: Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
cs.AI
Résumé
Nous abordons le problème de la génération de code à partir de retours d'exécution multi-tours. Les méthodes existantes génèrent soit du code sans retour, soit utilisent un apprentissage par renforcement hiérarchique complexe pour optimiser les récompenses multi-tours. Nous proposons une approche simple mais évolutive, muCode, qui résout la génération de code multi-tours en utilisant uniquement des récompenses à une étape. Notre idée clé est que la génération de code est un MDP récupérable en une étape, où le code correct peut être récupéré à partir de n'importe quel état de code intermédiaire en un seul tour. muCode entraîne itérativement à la fois un générateur pour fournir des solutions de code conditionnées par des retours d'exécution multi-tours et un vérificateur pour évaluer le nouveau code généré. Les évaluations expérimentales montrent que notre approche obtient des améliorations significatives par rapport aux méthodes de référence actuelles. Nous fournissons une analyse des choix de conception des modèles de récompense et de la politique, et montrons l'efficacité de muCode à exploiter les retours d'exécution. Notre code est disponible à l'adresse https://github.com/portal-cornell/muCode.
English
We address the problem of code generation from multi-turn execution feedback.
Existing methods either generate code without feedback or use complex,
hierarchical reinforcement learning to optimize multi-turn rewards. We propose
a simple yet scalable approach, muCode, that solves multi-turn code
generation using only single-step rewards. Our key insight is that code
generation is a one-step recoverable MDP, where the correct code can be
recovered from any intermediate code state in a single turn. muCode
iteratively trains both a generator to provide code solutions conditioned on
multi-turn execution feedback and a verifier to score the newly generated code.
Experimental evaluations show that our approach achieves significant
improvements over the state-of-the-art baselines. We provide analysis of the
design choices of the reward models and policy, and show the efficacy of
muCode at utilizing the execution feedback. Our code is available at
https://github.com/portal-cornell/muCode.Summary
AI-Generated Summary