Динамическое масштабирование модульных тестов для моделирования кода вознаграждения.
Dynamic Scaling of Unit Tests for Code Reward Modeling
January 2, 2025
Авторы: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI
Аннотация
Современные большие языковые модели (LLM) часто испытывают затруднения с точностью ответов с первой попытки для сложных задач рассуждения, таких как генерация кода. Предыдущие исследования решают эту проблему путем генерации нескольких вариантов решений и их проверки с помощью моделью LLM созданных модульных тестов. Результаты выполнения модульных тестов служат сигналами вознаграждения для определения правильных решений. Поскольку LLM всегда уверенно допускают ошибки, эти модульные тесты не являются надежными, что ухудшает качество сигналов вознаграждения. Вдохновленные наблюдением, что увеличение числа решений улучшает производительность LLM, мы исследуем влияние увеличения модульных тестов для улучшения качества сигналов вознаграждения. Наш пионерский эксперимент показывает положительную корреляцию между числом модульных тестов и качеством сигналов вознаграждения, с более значительными преимуществами, наблюдаемыми в более сложных задачах. Основываясь на этих наблюдениях, мы предлагаем CodeRM-8B, легковесный, но эффективный генератор модульных тестов, который обеспечивает эффективное и высококачественное увеличение количества модульных тестов. Кроме того, мы реализуем динамический механизм масштабирования, который адаптирует количество модульных тестов в зависимости от сложности задачи, дополнительно улучшая эффективность. Экспериментальные результаты показывают, что наш подход значительно улучшает производительность на различных моделях на трех тестовых наборах (например, с приростом в 18,43% для Llama3-8B и 3,42% для GPT-4o-mini на HumanEval Plus).
English
Current large language models (LLMs) often struggle to produce accurate
responses on the first attempt for complex reasoning tasks like code
generation. Prior research tackles this challenge by generating multiple
candidate solutions and validating them with LLM-generated unit tests. The
execution results of unit tests serve as reward signals to identify correct
solutions. As LLMs always confidently make mistakes, these unit tests are not
reliable, thereby diminishing the quality of reward signals. Motivated by the
observation that scaling the number of solutions improves LLM performance, we
explore the impact of scaling unit tests to enhance reward signal quality. Our
pioneer experiment reveals a positive correlation between the number of unit
tests and reward signal quality, with greater benefits observed in more
challenging problems. Based on these insights, we propose CodeRM-8B, a
lightweight yet effective unit test generator that enables efficient and
high-quality unit test scaling. Additionally, we implement a dynamic scaling
mechanism that adapts the number of unit tests based on problem difficulty,
further improving efficiency. Experimental results show that our approach
significantly improves performance across various models on three benchmarks
(e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on
HumanEval Plus).Summary
AI-Generated Summary