Supervision du processus de raffinement des résultats pour la génération de code
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
Auteurs: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
Résumé
Les grands modèles de langage ont démontré des capacités remarquables en génération de code, mais ils rencontrent souvent des difficultés avec des tâches de programmation complexes nécessitant un raisonnement algorithmique approfondi. Alors que la supervision du processus à travers des modèles de récompense appris montre des promesses pour guider les étapes de raisonnement, cela nécessite des données d'entraînement coûteuses et souffre d'une évaluation peu fiable. Nous proposons la Supervision de Processus d'Affinage de Résultats, un nouveau paradigme qui considère l'affinement des résultats lui-même comme le processus à superviser. Notre cadre exploite des signaux d'exécution concrets pour ancrer la supervision des étapes de raisonnement, tout en utilisant une exploration structurée en arborescence pour maintenir simultanément plusieurs trajectoires de solution. Les expériences démontrent que notre approche permet même à des modèles plus petits d'atteindre une précision élevée et des métriques de performance sur des tâches de programmation compétitives, créant une vérification plus fiable que les modèles de récompense traditionnels sans nécessiter d'entraînement PRM. Notre approche réalise des améliorations significatives sur 5 modèles et 3 ensembles de données : une augmentation moyenne de 26,9 % de la justesse et de 42,2 % de l'efficacité. Les résultats suggèrent que fournir un espace de raisonnement structuré avec des signaux de vérification concrets est crucial pour résoudre des tâches de programmation complexes. Nous rendons tout notre code et nos données open source sur : https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPSSummary
AI-Generated Summary