RLTF: Reinforcement Learning op basis van Unit Test Feedback
RLTF: Reinforcement Learning from Unit Test Feedback
July 10, 2023
Auteurs: Jiate Liu, Yiqin Zhu, Kaiwen Xiao, Qiang Fu, Xiao Han, Wei Yang, Deheng Ye
cs.AI
Samenvatting
Het doel van programma-synthese, of codegeneratie, is het genereren van uitvoerbare code op basis van gegeven beschrijvingen. Recentelijk is er een toenemend aantal studies dat reinforcement learning (RL) gebruikt om de prestaties van grote taalmodellen (LLMs) voor code te verbeteren. Deze RL-methoden hebben echter alleen offline frameworks gebruikt, wat hun verkenning van nieuwe voorbeeldruimten beperkt. Bovendien zijn de huidige benaderingen die gebruikmaken van unit test-signalen vrij eenvoudig en houden ze geen rekening met specifieke foutlocaties binnen de code. Om deze problemen aan te pakken, hebben wij RLTF voorgesteld, oftewel Reinforcement Learning from Unit Test Feedback, een nieuw online RL-framework met unit test-feedback van meerdere granulariteiten voor het verfijnen van code-LLMs. Onze aanpak genereert gegevens in realtime tijdens de training en maakt tegelijkertijd gebruik van fijnmazige feedbacksignalen om het model te begeleiden bij het produceren van code van hogere kwaliteit. Uitgebreide experimenten tonen aan dat RLTF state-of-the-art prestaties behaalt op de APPS- en MBPP-benchmarks. Onze code is te vinden op: https://github.com/Zyq-scut/RLTF.
English
The goal of program synthesis, or code generation, is to generate executable
code based on given descriptions. Recently, there has been an increasing number
of studies employing reinforcement learning (RL) to improve the performance of
large language models (LLMs) for code. However, these RL methods have only used
offline frameworks, limiting their exploration of new sample spaces.
Additionally, current approaches that utilize unit test signals are rather
simple, not accounting for specific error locations within the code. To address
these issues, we proposed RLTF, i.e., Reinforcement Learning from Unit Test
Feedback, a novel online RL framework with unit test feedback of
multi-granularity for refining code LLMs. Our approach generates data in
real-time during training and simultaneously utilizes fine-grained feedback
signals to guide the model towards producing higher-quality code. Extensive
experiments show that RLTF achieves state-of-the-art performance on the APPS
and the MBPP benchmarks. Our code can be found at:
https://github.com/Zyq-scut/RLTF.