RLTF: Aprendizado por Reforço a partir de Feedback de Testes Unitários

Resumo

O objetivo da síntese de programas, ou geração de código, é produzir código executável com base em descrições fornecidas. Recentemente, tem havido um número crescente de estudos empregando aprendizado por reforço (RL) para melhorar o desempenho de modelos de linguagem de grande escala (LLMs) para código. No entanto, esses métodos de RL têm utilizado apenas frameworks offline, limitando a exploração de novos espaços de amostras. Além disso, as abordagens atuais que utilizam sinais de testes unitários são bastante simples, não levando em consideração locais específicos de erros dentro do código. Para resolver esses problemas, propomos o RLTF, ou seja, Aprendizado por Reforço a partir de Feedback de Testes Unitários, um novo framework de RL online com feedback de testes unitários de múltiplas granularidades para refinar LLMs de código. Nossa abordagem gera dados em tempo real durante o treinamento e utiliza simultaneamente sinais de feedback detalhados para guiar o modelo na produção de códigos de maior qualidade. Experimentos extensivos mostram que o RLTF alcança desempenho de ponta nos benchmarks APPS e MBPP. Nosso código pode ser encontrado em: https://github.com/Zyq-scut/RLTF.

English

The goal of program synthesis, or code generation, is to generate executable code based on given descriptions. Recently, there has been an increasing number of studies employing reinforcement learning (RL) to improve the performance of large language models (LLMs) for code. However, these RL methods have only used offline frameworks, limiting their exploration of new sample spaces. Additionally, current approaches that utilize unit test signals are rather simple, not accounting for specific error locations within the code. To address these issues, we proposed RLTF, i.e., Reinforcement Learning from Unit Test Feedback, a novel online RL framework with unit test feedback of multi-granularity for refining code LLMs. Our approach generates data in real-time during training and simultaneously utilizes fine-grained feedback signals to guide the model towards producing higher-quality code. Extensive experiments show that RLTF achieves state-of-the-art performance on the APPS and the MBPP benchmarks. Our code can be found at: https://github.com/Zyq-scut/RLTF.

RLTF: Aprendizado por Reforço a partir de Feedback de Testes Unitários

RLTF: Reinforcement Learning from Unit Test Feedback

Resumo

Support