Escalado Dinámico de Pruebas Unitarias para Modelado de Recompensas de Código
Dynamic Scaling of Unit Tests for Code Reward Modeling
January 2, 2025
Autores: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI
Resumen
Los modelos de lenguaje grandes actuales (LLMs) a menudo tienen dificultades para producir respuestas precisas en el primer intento para tareas de razonamiento complejas como la generación de código. Investigaciones previas abordan este desafío generando múltiples soluciones candidatas y validándolas con pruebas unitarias generadas por LLM. Los resultados de ejecución de las pruebas unitarias sirven como señales de recompensa para identificar las soluciones correctas. Dado que los LLM siempre cometen errores con confianza, estas pruebas unitarias no son confiables, disminuyendo así la calidad de las señales de recompensa. Motivados por la observación de que aumentar el número de soluciones mejora el rendimiento de los LLM, exploramos el impacto de escalar las pruebas unitarias para mejorar la calidad de las señales de recompensa. Nuestro experimento pionero revela una correlación positiva entre el número de pruebas unitarias y la calidad de las señales de recompensa, con mayores beneficios observados en problemas más desafiantes. Basándonos en estos conocimientos, proponemos CodeRM-8B, un generador de pruebas unitarias ligero pero efectivo que permite escalar las pruebas unitarias de manera eficiente y de alta calidad. Además, implementamos un mecanismo de escalado dinámico que adapta el número de pruebas unitarias según la dificultad del problema, mejorando aún más la eficiencia. Los resultados experimentales muestran que nuestro enfoque mejora significativamente el rendimiento en varios modelos en tres benchmarks (por ejemplo, con ganancias del 18.43% para Llama3-8B y del 3.42% para GPT-4o-mini en HumanEval Plus).
English
Current large language models (LLMs) often struggle to produce accurate
responses on the first attempt for complex reasoning tasks like code
generation. Prior research tackles this challenge by generating multiple
candidate solutions and validating them with LLM-generated unit tests. The
execution results of unit tests serve as reward signals to identify correct
solutions. As LLMs always confidently make mistakes, these unit tests are not
reliable, thereby diminishing the quality of reward signals. Motivated by the
observation that scaling the number of solutions improves LLM performance, we
explore the impact of scaling unit tests to enhance reward signal quality. Our
pioneer experiment reveals a positive correlation between the number of unit
tests and reward signal quality, with greater benefits observed in more
challenging problems. Based on these insights, we propose CodeRM-8B, a
lightweight yet effective unit test generator that enables efficient and
high-quality unit test scaling. Additionally, we implement a dynamic scaling
mechanism that adapts the number of unit tests based on problem difficulty,
further improving efficiency. Experimental results show that our approach
significantly improves performance across various models on three benchmarks
(e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on
HumanEval Plus).Summary
AI-Generated Summary