Mise à l'échelle dynamique des tests unitaires pour la modélisation de la récompense de code
Dynamic Scaling of Unit Tests for Code Reward Modeling
January 2, 2025
Auteurs: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI
Résumé
Les modèles de langage de grande taille (LLM) actuels ont souvent du mal à produire des réponses précises dès la première tentative pour des tâches de raisonnement complexe telles que la génération de code. Les recherches antérieures abordent ce défi en générant plusieurs solutions candidates et en les validant avec des tests unitaires générés par LLM. Les résultats de l'exécution des tests unitaires servent de signaux de récompense pour identifier les solutions correctes. Comme les LLM font toujours des erreurs avec confiance, ces tests unitaires ne sont pas fiables, diminuant ainsi la qualité des signaux de récompense. Motivés par l'observation selon laquelle l'augmentation du nombre de solutions améliore les performances des LLM, nous explorons l'impact de l'augmentation des tests unitaires pour améliorer la qualité des signaux de récompense. Notre expérience pionnière révèle une corrélation positive entre le nombre de tests unitaires et la qualité des signaux de récompense, avec des avantages plus importants observés dans des problèmes plus difficiles. Sur la base de ces observations, nous proposons CodeRM-8B, un générateur de tests unitaires léger mais efficace qui permet un dimensionnement efficace et de haute qualité des tests unitaires. De plus, nous mettons en œuvre un mécanisme de dimensionnement dynamique qui adapte le nombre de tests unitaires en fonction de la difficulté du problème, améliorant ainsi davantage l'efficacité. Les résultats expérimentaux montrent que notre approche améliore significativement les performances de divers modèles sur trois benchmarks (par exemple, avec des gains de 18,43 % pour Llama3-8B et de 3,42 % pour GPT-4o-mini sur HumanEval Plus).
English
Current large language models (LLMs) often struggle to produce accurate
responses on the first attempt for complex reasoning tasks like code
generation. Prior research tackles this challenge by generating multiple
candidate solutions and validating them with LLM-generated unit tests. The
execution results of unit tests serve as reward signals to identify correct
solutions. As LLMs always confidently make mistakes, these unit tests are not
reliable, thereby diminishing the quality of reward signals. Motivated by the
observation that scaling the number of solutions improves LLM performance, we
explore the impact of scaling unit tests to enhance reward signal quality. Our
pioneer experiment reveals a positive correlation between the number of unit
tests and reward signal quality, with greater benefits observed in more
challenging problems. Based on these insights, we propose CodeRM-8B, a
lightweight yet effective unit test generator that enables efficient and
high-quality unit test scaling. Additionally, we implement a dynamic scaling
mechanism that adapts the number of unit tests based on problem difficulty,
further improving efficiency. Experimental results show that our approach
significantly improves performance across various models on three benchmarks
(e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on
HumanEval Plus).Summary
AI-Generated Summary