RLTF: Aprendizado por Reforço a partir de Feedback de Testes Unitários
RLTF: Reinforcement Learning from Unit Test Feedback
July 10, 2023
Autores: Jiate Liu, Yiqin Zhu, Kaiwen Xiao, Qiang Fu, Xiao Han, Wei Yang, Deheng Ye
cs.AI
Resumo
O objetivo da síntese de programas, ou geração de código, é produzir código executável com base em descrições fornecidas. Recentemente, tem havido um número crescente de estudos empregando aprendizado por reforço (RL) para melhorar o desempenho de modelos de linguagem de grande escala (LLMs) para código. No entanto, esses métodos de RL têm utilizado apenas frameworks offline, limitando a exploração de novos espaços de amostras. Além disso, as abordagens atuais que utilizam sinais de testes unitários são bastante simples, não levando em consideração locais específicos de erros dentro do código. Para resolver esses problemas, propomos o RLTF, ou seja, Aprendizado por Reforço a partir de Feedback de Testes Unitários, um novo framework de RL online com feedback de testes unitários de múltiplas granularidades para refinar LLMs de código. Nossa abordagem gera dados em tempo real durante o treinamento e utiliza simultaneamente sinais de feedback detalhados para guiar o modelo na produção de códigos de maior qualidade. Experimentos extensivos mostram que o RLTF alcança desempenho de ponta nos benchmarks APPS e MBPP. Nosso código pode ser encontrado em: https://github.com/Zyq-scut/RLTF.
English
The goal of program synthesis, or code generation, is to generate executable
code based on given descriptions. Recently, there has been an increasing number
of studies employing reinforcement learning (RL) to improve the performance of
large language models (LLMs) for code. However, these RL methods have only used
offline frameworks, limiting their exploration of new sample spaces.
Additionally, current approaches that utilize unit test signals are rather
simple, not accounting for specific error locations within the code. To address
these issues, we proposed RLTF, i.e., Reinforcement Learning from Unit Test
Feedback, a novel online RL framework with unit test feedback of
multi-granularity for refining code LLMs. Our approach generates data in
real-time during training and simultaneously utilizes fine-grained feedback
signals to guide the model towards producing higher-quality code. Extensive
experiments show that RLTF achieves state-of-the-art performance on the APPS
and the MBPP benchmarks. Our code can be found at:
https://github.com/Zyq-scut/RLTF.