Supervisión del Proceso de Refinamiento del Resultado para la Generación de Código
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
Autores: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes han demostrado capacidades notables en la generación de código, sin embargo, a menudo tienen dificultades con tareas de programación complejas que requieren un razonamiento algorítmico profundo. Mientras que la supervisión del proceso a través de modelos de recompensa aprendidos muestra promesa en guiar los pasos de razonamiento, requiere datos de entrenamiento costosos y sufre de evaluaciones poco fiables. Proponemos la Supervisión del Proceso de Refinamiento del Resultado, un paradigma novedoso que trata al refinamiento del resultado en sí como el proceso a ser supervisado. Nuestro marco aprovecha señales de ejecución concretas para fundamentar la supervisión de los pasos de razonamiento, mientras utiliza exploración estructurada en forma de árbol para mantener múltiples trayectorias de solución simultáneamente. Los experimentos demuestran que nuestro enfoque permite que incluso modelos más pequeños logren una alta precisión de éxito y métricas de rendimiento en tareas de programación competitivas, creando una verificación más confiable que los modelos de recompensa tradicionales sin necesidad de entrenar PRMs. Nuestro enfoque logra mejoras significativas en 5 modelos y 3 conjuntos de datos: un promedio de aumento del 26.9% en corrección y del 42.2% en eficiencia. Los resultados sugieren que proporcionar un espacio de razonamiento estructurado con señales de verificación concretas es crucial para resolver tareas de programación complejas. Ponemos a disposición todo nuestro código y datos de forma abierta en: https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPSSummary
AI-Generated Summary