Ponte entre RL Online e Offline: Aprendizado de Bandit Contextual para Geração de Código em Múltiplos Turnos

Resumo

Recentemente, tem havido um interesse significativo da pesquisa no treinamento de grandes modelos de linguagem (LLMs) com aprendizado por reforço (RL) em tarefas do mundo real, como a geração de código em múltiplas etapas. Embora o RL online tenda a ter um desempenho superior ao RL offline, seu maior custo de treinamento e instabilidade dificultam sua ampla adoção. Neste artigo, partimos da observação de que a geração de código em múltiplas etapas pode ser formulada como um processo de decisão de Markov recuperável em uma etapa e propomos o aprendizado por bandit contextual com trajetórias offline (Cobalt), um novo método que combina os benefícios do RL online e offline. O Cobalt primeiro coleta trajetórias de geração de código usando um LLM de referência e as divide em trajetórias parciais para servirem como prompts contextuais. Em seguida, durante o aprendizado online por bandit, o LLM é treinado para completar cada prompt de trajetória parcial por meio de geração de código em uma única etapa. O Cobalt supera duas linhas de base de RL online multi-etapa baseadas em GRPO e VeRPO, e melhora substancialmente os modelos R1-Distill 8B e Qwen3 8B em até 9,0 e 6,2 pontos absolutos na métrica Pass@1 no LiveCodeBench. Adicionalmente, analisamos os comportamentos de "hacking" de recompensa in-context dos LLMs e aumentamos o treinamento do Cobalt com trajetórias perturbadas para mitigar esse problema. No geral, nossos resultados demonstram o Cobalt como uma solução promissora para tarefas de tomada de decisão iterativa, como a geração de código em múltiplas etapas. Nosso código e dados estão disponíveis em https://github.com/OSU-NLP-Group/cobalt.

English

Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.

Ponte entre RL Online e Offline: Aprendizado de Bandit Contextual para Geração de Código em Múltiplos Turnos

Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation

Resumo

Support