Наблюдение за процессом улучшения результатов для генерации кода
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
Авторы: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
Аннотация
Большие языковые модели продемонстрировали выдающиеся возможности в генерации кода, однако часто испытывают трудности с выполнением сложных программистских задач, требующих глубокого алгоритмического мышления. В то время как надзор за процессом через обученные модели вознаграждения показывает потенциал в направлении шагов рассуждения, это требует дорогостоящих обучающих данных и страдает от ненадежной оценки. Мы предлагаем Подконтрольный Процессу Исход, новый парадигму, который рассматривает совершенствование исхода само по себе как процесс, который подлежит надзору. Наша структура использует конкретные сигналы выполнения для обоснования надзора за шагами рассуждения, используя при этом древовидное исследование для поддержания нескольких траекторий решения одновременно. Эксперименты показывают, что наш подход позволяет даже более маленьким моделям достигать высокой точности успеха и показателей производительности на конкурентных программистских задачах, создавая более надежную верификацию, чем традиционные модели вознаграждения без необходимости обучения PRM. Наш подход достигает значительных улучшений по всем 5 моделям и 3 наборам данных: в среднем увеличение в правильности на 26.9% и в эффективности на 42.2%. Результаты свидетельствуют о том, что предоставление структурированного пространства рассуждений с конкретными сигналами верификации критично для решения сложных программистских задач. Мы открыто публикуем весь наш код и данные по адресу: https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPSSummary
AI-Generated Summary