Dynamische Skalierung von Modultests für die Modellierung von Codebelohnungen

papers.abstract

Aktuelle große Sprachmodelle (LLMs) haben oft Schwierigkeiten, bei komplexen Aufgaben des logischen Denkens wie der Codegenerierung beim ersten Versuch genaue Antworten zu liefern. Frühere Forschung hat sich mit dieser Herausforderung befasst, indem sie mehrere Lösungsvorschläge generiert und sie mit von LLMs generierten Modultests validiert hat. Die Ausführungsergebnisse der Modultests dienen als Belohnungssignale zur Identifizierung korrekter Lösungen. Da LLMs immer selbstbewusst Fehler machen, sind diese Modultests nicht zuverlässig, was die Qualität der Belohnungssignale mindert. Angeregt durch die Beobachtung, dass die Skalierung der Anzahl der Lösungsvorschläge die Leistung von LLMs verbessert, untersuchen wir die Auswirkungen der Skalierung von Modultests zur Verbesserung der Qualität der Belohnungssignale. Unser wegweisendes Experiment zeigt eine positive Korrelation zwischen der Anzahl der Modultests und der Qualität der Belohnungssignale, wobei größere Vorteile bei anspruchsvolleren Problemen beobachtet werden. Basierend auf diesen Erkenntnissen schlagen wir CodeRM-8B vor, einen leichtgewichtigen, aber effektiven Modultestgenerator, der eine effiziente und hochwertige Skalierung von Modultests ermöglicht. Darüber hinaus implementieren wir einen dynamischen Skalierungsmechanismus, der die Anzahl der Modultests je nach Schwierigkeitsgrad des Problems anpasst und so die Effizienz weiter verbessert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Leistung bei verschiedenen Modellen auf drei Benchmarks signifikant verbessert (z. B. mit Gewinnen von 18,43 % für Llama3-8B und 3,42 % für GPT-4o-mini bei HumanEval Plus).

English

Current large language models (LLMs) often struggle to produce accurate responses on the first attempt for complex reasoning tasks like code generation. Prior research tackles this challenge by generating multiple candidate solutions and validating them with LLM-generated unit tests. The execution results of unit tests serve as reward signals to identify correct solutions. As LLMs always confidently make mistakes, these unit tests are not reliable, thereby diminishing the quality of reward signals. Motivated by the observation that scaling the number of solutions improves LLM performance, we explore the impact of scaling unit tests to enhance reward signal quality. Our pioneer experiment reveals a positive correlation between the number of unit tests and reward signal quality, with greater benefits observed in more challenging problems. Based on these insights, we propose CodeRM-8B, a lightweight yet effective unit test generator that enables efficient and high-quality unit test scaling. Additionally, we implement a dynamic scaling mechanism that adapts the number of unit tests based on problem difficulty, further improving efficiency. Experimental results show that our approach significantly improves performance across various models on three benchmarks (e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on HumanEval Plus).

Dynamische Skalierung von Modultests für die Modellierung von Codebelohnungen

Dynamic Scaling of Unit Tests for Code Reward Modeling

papers.abstract

Support