ChatPaper.aiChatPaper

Escalado Dinámico de Pruebas Unitarias para Modelado de Recompensas de Código

Dynamic Scaling of Unit Tests for Code Reward Modeling

January 2, 2025
Autores: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI

Resumen

Los modelos de lenguaje grandes actuales (LLMs) a menudo tienen dificultades para producir respuestas precisas en el primer intento para tareas de razonamiento complejas como la generación de código. Investigaciones previas abordan este desafío generando múltiples soluciones candidatas y validándolas con pruebas unitarias generadas por LLM. Los resultados de ejecución de las pruebas unitarias sirven como señales de recompensa para identificar las soluciones correctas. Dado que los LLM siempre cometen errores con confianza, estas pruebas unitarias no son confiables, disminuyendo así la calidad de las señales de recompensa. Motivados por la observación de que aumentar el número de soluciones mejora el rendimiento de los LLM, exploramos el impacto de escalar las pruebas unitarias para mejorar la calidad de las señales de recompensa. Nuestro experimento pionero revela una correlación positiva entre el número de pruebas unitarias y la calidad de las señales de recompensa, con mayores beneficios observados en problemas más desafiantes. Basándonos en estos conocimientos, proponemos CodeRM-8B, un generador de pruebas unitarias ligero pero efectivo que permite escalar las pruebas unitarias de manera eficiente y de alta calidad. Además, implementamos un mecanismo de escalado dinámico que adapta el número de pruebas unitarias según la dificultad del problema, mejorando aún más la eficiencia. Los resultados experimentales muestran que nuestro enfoque mejora significativamente el rendimiento en varios modelos en tres benchmarks (por ejemplo, con ganancias del 18.43% para Llama3-8B y del 3.42% para GPT-4o-mini en HumanEval Plus).
English
Current large language models (LLMs) often struggle to produce accurate responses on the first attempt for complex reasoning tasks like code generation. Prior research tackles this challenge by generating multiple candidate solutions and validating them with LLM-generated unit tests. The execution results of unit tests serve as reward signals to identify correct solutions. As LLMs always confidently make mistakes, these unit tests are not reliable, thereby diminishing the quality of reward signals. Motivated by the observation that scaling the number of solutions improves LLM performance, we explore the impact of scaling unit tests to enhance reward signal quality. Our pioneer experiment reveals a positive correlation between the number of unit tests and reward signal quality, with greater benefits observed in more challenging problems. Based on these insights, we propose CodeRM-8B, a lightweight yet effective unit test generator that enables efficient and high-quality unit test scaling. Additionally, we implement a dynamic scaling mechanism that adapts the number of unit tests based on problem difficulty, further improving efficiency. Experimental results show that our approach significantly improves performance across various models on three benchmarks (e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on HumanEval Plus).

Summary

AI-Generated Summary

PDF172January 3, 2025