Überwachung des Prozesses zur Verfeinerung von Ergebnissen für die Codegenerierung
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
Autoren: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle haben bemerkenswerte Fähigkeiten bei der Codegenerierung gezeigt, kämpfen jedoch oft mit komplexen Programmieraufgaben, die tiefgreifendes algorithmisches Denken erfordern. Während die Prozessaufsicht durch erlernte Belohnungsmodelle vielversprechend ist, um das Denken zu lenken, erfordert sie teure Trainingsdaten und leidet unter unzuverlässiger Bewertung. Wir schlagen Outcome-Verfeinernde Prozessaufsicht vor, ein neuartiges Paradigma, das die Verfeinerung des Ergebnisses selbst als den zu beaufsichtigenden Prozess behandelt. Unser Rahmenkonzept nutzt konkrete Ausführungssignale, um die Beaufsichtigung von Denkschritten zu verankern, und verwendet baumstrukturierte Exploration, um gleichzeitig mehrere Lösungspfade aufrechtzuerhalten. Experimente zeigen, dass unser Ansatz selbst kleineren Modellen ermöglicht, hohe Erfolgsquoten und Leistungsmetriken bei anspruchsvollen Programmieraufgaben zu erreichen, zuverlässigere Verifizierung als traditionelle Belohnungsmodelle zu schaffen, ohne Trainings-PRMs zu benötigen. Unser Ansatz erzielt signifikante Verbesserungen bei 5 Modellen und 3 Datensätzen: durchschnittlich 26,9% mehr Korrektheit und 42,2% mehr Effizienz. Die Ergebnisse legen nahe, dass die Bereitstellung eines strukturierten Denkraums mit konkreten Verifikationssignalen entscheidend ist für die Lösung komplexer Programmieraufgaben. Wir stellen unseren gesamten Code und unsere Daten unter folgendem Link Open Source zur Verfügung: https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPSSummary
AI-Generated Summary