Toezicht op het proces van het verfijnen van resultaten voor codegeneratie
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
Auteurs: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
Samenvatting
Grote taalmodellen hebben opmerkelijke mogelijkheden aangetoond in codegeneratie, maar worstelen vaak met complexe programmeertaken die diepgaand algoritmisch redeneren vereisen. Hoewel procesbegeleiding via geleerde beloningsmodellen veelbelovend is gebleken in het sturen van redeneerstappen, vereist het dure trainingsgegevens en kampt het met onbetrouwbare evaluatie. Wij stellen Outcome-Refining Process Supervision voor, een nieuw paradigma dat uitkomstverfijning zelf behandelt als het te begeleiden proces. Ons kader maakt gebruik van concrete uitvoersignalen om de begeleiding van redeneerstappen te gronden, terwijl het gebruikmaakt van boomgestructureerde verkenning om tegelijkertijd meerdere oplossingstrajecten te behouden. Experimenten tonen aan dat onze aanpak zelfs kleinere modellen in staat stelt om hoge succesnauwkeurigheid en prestatie-indicatoren te behalen bij competitieve programmeertaken, betrouwbaardere verificatie creëert dan traditionele beloningsmodellen zonder training PRM's te vereisen. Onze aanpak behaalt significante verbeteringen over 5 modellen en 3 datasets: een gemiddelde toename van 26,9% in correctheid en 42,2% in efficiëntie. De resultaten suggereren dat het bieden van gestructureerde redeneerruimte met concrete verificatiesignalen cruciaal is voor het oplossen van complexe programmeertaken. Wij stellen al onze code en gegevens beschikbaar op: https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPS