RLTF: Reinforcement Learning op basis van Unit Test Feedback

Samenvatting

Het doel van programma-synthese, of codegeneratie, is het genereren van uitvoerbare code op basis van gegeven beschrijvingen. Recentelijk is er een toenemend aantal studies dat reinforcement learning (RL) gebruikt om de prestaties van grote taalmodellen (LLMs) voor code te verbeteren. Deze RL-methoden hebben echter alleen offline frameworks gebruikt, wat hun verkenning van nieuwe voorbeeldruimten beperkt. Bovendien zijn de huidige benaderingen die gebruikmaken van unit test-signalen vrij eenvoudig en houden ze geen rekening met specifieke foutlocaties binnen de code. Om deze problemen aan te pakken, hebben wij RLTF voorgesteld, oftewel Reinforcement Learning from Unit Test Feedback, een nieuw online RL-framework met unit test-feedback van meerdere granulariteiten voor het verfijnen van code-LLMs. Onze aanpak genereert gegevens in realtime tijdens de training en maakt tegelijkertijd gebruik van fijnmazige feedbacksignalen om het model te begeleiden bij het produceren van code van hogere kwaliteit. Uitgebreide experimenten tonen aan dat RLTF state-of-the-art prestaties behaalt op de APPS- en MBPP-benchmarks. Onze code is te vinden op: https://github.com/Zyq-scut/RLTF.

English

The goal of program synthesis, or code generation, is to generate executable code based on given descriptions. Recently, there has been an increasing number of studies employing reinforcement learning (RL) to improve the performance of large language models (LLMs) for code. However, these RL methods have only used offline frameworks, limiting their exploration of new sample spaces. Additionally, current approaches that utilize unit test signals are rather simple, not accounting for specific error locations within the code. To address these issues, we proposed RLTF, i.e., Reinforcement Learning from Unit Test Feedback, a novel online RL framework with unit test feedback of multi-granularity for refining code LLMs. Our approach generates data in real-time during training and simultaneously utilizes fine-grained feedback signals to guide the model towards producing higher-quality code. Extensive experiments show that RLTF achieves state-of-the-art performance on the APPS and the MBPP benchmarks. Our code can be found at: https://github.com/Zyq-scut/RLTF.

RLTF: Reinforcement Learning op basis van Unit Test Feedback

RLTF: Reinforcement Learning from Unit Test Feedback

Samenvatting

Support