Dynamische Skalierung von Modultests für die Modellierung von Codebelohnungen
Dynamic Scaling of Unit Tests for Code Reward Modeling
January 2, 2025
Autoren: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI
Zusammenfassung
Aktuelle große Sprachmodelle (LLMs) haben oft Schwierigkeiten, bei komplexen Aufgaben des logischen Denkens wie der Codegenerierung beim ersten Versuch genaue Antworten zu liefern. Frühere Forschung hat sich mit dieser Herausforderung befasst, indem sie mehrere Lösungsvorschläge generiert und sie mit von LLMs generierten Modultests validiert hat. Die Ausführungsergebnisse der Modultests dienen als Belohnungssignale zur Identifizierung korrekter Lösungen. Da LLMs immer selbstbewusst Fehler machen, sind diese Modultests nicht zuverlässig, was die Qualität der Belohnungssignale mindert. Angeregt durch die Beobachtung, dass die Skalierung der Anzahl der Lösungsvorschläge die Leistung von LLMs verbessert, untersuchen wir die Auswirkungen der Skalierung von Modultests zur Verbesserung der Qualität der Belohnungssignale. Unser wegweisendes Experiment zeigt eine positive Korrelation zwischen der Anzahl der Modultests und der Qualität der Belohnungssignale, wobei größere Vorteile bei anspruchsvolleren Problemen beobachtet werden. Basierend auf diesen Erkenntnissen schlagen wir CodeRM-8B vor, einen leichtgewichtigen, aber effektiven Modultestgenerator, der eine effiziente und hochwertige Skalierung von Modultests ermöglicht. Darüber hinaus implementieren wir einen dynamischen Skalierungsmechanismus, der die Anzahl der Modultests je nach Schwierigkeitsgrad des Problems anpasst und so die Effizienz weiter verbessert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Leistung bei verschiedenen Modellen auf drei Benchmarks signifikant verbessert (z. B. mit Gewinnen von 18,43 % für Llama3-8B und 3,42 % für GPT-4o-mini bei HumanEval Plus).
English
Current large language models (LLMs) often struggle to produce accurate
responses on the first attempt for complex reasoning tasks like code
generation. Prior research tackles this challenge by generating multiple
candidate solutions and validating them with LLM-generated unit tests. The
execution results of unit tests serve as reward signals to identify correct
solutions. As LLMs always confidently make mistakes, these unit tests are not
reliable, thereby diminishing the quality of reward signals. Motivated by the
observation that scaling the number of solutions improves LLM performance, we
explore the impact of scaling unit tests to enhance reward signal quality. Our
pioneer experiment reveals a positive correlation between the number of unit
tests and reward signal quality, with greater benefits observed in more
challenging problems. Based on these insights, we propose CodeRM-8B, a
lightweight yet effective unit test generator that enables efficient and
high-quality unit test scaling. Additionally, we implement a dynamic scaling
mechanism that adapts the number of unit tests based on problem difficulty,
further improving efficiency. Experimental results show that our approach
significantly improves performance across various models on three benchmarks
(e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on
HumanEval Plus).Summary
AI-Generated Summary