Online en Offline RL Overbruggen: Contextuele Bandietleren voor Multi-Turn Codegeneratie
Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
February 3, 2026
Auteurs: Ziru Chen, Dongdong Chen, Ruinan Jin, Yingbin Liang, Yujia Xie, Huan Sun
cs.AI
Samenvatting
Recentelijk is er aanzienlijke onderzoeksinteresse ontstaan in het trainen van grote taalmmodellen (LLM's) met reinforcement learning (RL) voor real-world taken, zoals multi-turn codegeneratie. Hoewel online RL de neiging heeft beter te presteren dan offline RL, verhinderen de hogere trainingskosten en instabiliteit ervan een brede adoptie. In dit artikel bouwen we voort op de observatie dat multi-turn codegeneratie geformuleerd kan worden als een één-staps herstelbaar Markov-beslissingsproces en stellen we *contextual bandit learning with offline trajectories* (Cobalt) voor, een nieuwe methode die de voordelen van online en offline RL combineert. Cobalt verzamelt eerst codegeneratietrajecten met behulp van een referentie-LLM en deelt deze op in partiële trajecten als contextuele prompts. Vervolgens wordt de LLM tijdens online bandit-learning getraind om elke partiële traject-prompt aan te vullen via één-staps codegeneratie. Cobalt presteert beter dan twee multi-turn online RL-baselines gebaseerd op GRPO en VeRPO, en verbetert R1-Distill 8B en Qwen3 8B aanzienlijk met respectievelijk tot 9,0 en 6,2 absolute Pass@1-scores op LiveCodeBench. Daarnaast analyseren we *in-context reward hacking*-gedrag van LLM's en verrijken we de Cobalt-training met verstoorde trajecten om dit probleem te mitigeren. Over het geheel genomen tonen onze resultaten aan dat Cobalt een veelbelovende oplossing is voor iteratieve besluitvormingstaken zoals multi-turn codegeneratie. Onze code en data zijn beschikbaar op https://github.com/OSU-NLP-Group/cobalt.
English
Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.