ChatPaper.aiChatPaper

Dynamische Schaling van Unit Tests voor Code Reward Modellering

Dynamic Scaling of Unit Tests for Code Reward Modeling

January 2, 2025
Auteurs: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI

Samenvatting

Huidige grote taalmodellen (LLM's) hebben vaak moeite om nauwkeurige antwoorden te produceren bij de eerste poging voor complexe redeneertaken zoals codegeneratie. Eerdere onderzoeken pakken deze uitdaging aan door meerdere mogelijke oplossingen te genereren en deze te valideren met door LLM gegenereerde eenheidstests. De uitvoeringsresultaten van de eenheidstests dienen als beloningssignalen om de juiste oplossingen te identificeren. Omdat LLM's altijd zelfverzekerd fouten maken, zijn deze eenheidstests niet betrouwbaar, waardoor de kwaliteit van de beloningssignalen afneemt. Gemotiveerd door de observatie dat het opschalen van het aantal oplossingen de prestaties van LLM verbetert, onderzoeken we de impact van het opschalen van eenheidstests om de kwaliteit van beloningssignalen te verbeteren. Ons baanbrekende experiment onthult een positieve correlatie tussen het aantal eenheidstests en de kwaliteit van beloningssignalen, waarbij grotere voordelen worden waargenomen bij meer uitdagende problemen. Op basis van deze inzichten stellen we CodeRM-8B voor, een lichtgewicht maar effectieve eenheidstestgenerator die efficiënte en hoogwaardige opschaling van eenheidstests mogelijk maakt. Daarnaast implementeren we een dynamisch schalingsmechanisme dat het aantal eenheidstests aanpast op basis van de moeilijkheidsgraad van het probleem, wat de efficiëntie verder verbetert. Experimentele resultaten tonen aan dat onze aanpak de prestaties aanzienlijk verbetert bij verschillende modellen op drie benchmarks (bijv. met winsten van 18,43% voor Llama3-8B en 3,42% voor GPT-4o-mini op HumanEval Plus).
English
Current large language models (LLMs) often struggle to produce accurate responses on the first attempt for complex reasoning tasks like code generation. Prior research tackles this challenge by generating multiple candidate solutions and validating them with LLM-generated unit tests. The execution results of unit tests serve as reward signals to identify correct solutions. As LLMs always confidently make mistakes, these unit tests are not reliable, thereby diminishing the quality of reward signals. Motivated by the observation that scaling the number of solutions improves LLM performance, we explore the impact of scaling unit tests to enhance reward signal quality. Our pioneer experiment reveals a positive correlation between the number of unit tests and reward signal quality, with greater benefits observed in more challenging problems. Based on these insights, we propose CodeRM-8B, a lightweight yet effective unit test generator that enables efficient and high-quality unit test scaling. Additionally, we implement a dynamic scaling mechanism that adapts the number of unit tests based on problem difficulty, further improving efficiency. Experimental results show that our approach significantly improves performance across various models on three benchmarks (e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on HumanEval Plus).

Summary

AI-Generated Summary

PDF172January 3, 2025