Collegamento tra RL Online e Offline: Apprendimento con Banditi Contestuali per la Generazione di Codice Multi-Turn

Abstract

Recentemente, si è registrato un notevole interesse della ricerca nell'addestramento di grandi modelli linguistici (LLM) con apprendimento per rinforzo (RL) su compiti del mondo reale, come la generazione di codice multi-turn. Sebbene l'RL online tenda a performare meglio dell'RL offline, i suoi costi di addestramento più elevati e l'instabilità ne ostacolano un'ampia adozione. In questo articolo, partendo dall'osservazione che la generazione di codice multi-turn può essere formulata come un processo decisionale di Markov a un passo e recuperabile, proponiamo l'apprendimento bandit contestuale con traiettorie offline (Cobalt), un nuovo metodo che combina i vantaggi dell'RL online e offline. Cobalt raccoglie inizialmente traiettorie di generazione di codice utilizzando un LLM di riferimento e le suddivide in traiettorie parziali da utilizzare come prompt contestuali. Successivamente, durante l'apprendimento bandit online, l'LLM viene addestrato a completare ogni prompt di traiettoria parziale attraverso una generazione di codice a singolo passo. Cobalt supera due baseline di RL online multi-turn basate su GRPO e VeRPO e migliora sostanzialmente R1-Distill 8B e Qwen3 8B fino a 9,0 e 6,2 punti assoluti di Pass@1 su LiveCodeBench. Inoltre, analizziamo i comportamenti di reward hacking in-context degli LLM e potenziamo l'addestramento Cobalt con traiettorie perturbate per mitigare questo problema. Nel complesso, i nostri risultati dimostrano che Cobalt è una soluzione promettente per compiti decisionali iterativi come la generazione di codice multi-turn. Il nostro codice e i nostri dati sono disponibili all'indirizzo https://github.com/OSU-NLP-Group/cobalt.

English

Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.

Collegamento tra RL Online e Offline: Apprendimento con Banditi Contestuali per la Generazione di Codice Multi-Turn

Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation

Abstract

Support