Pont entre l'apprentissage par renforcement en ligne et hors ligne : apprentissage par bandits contextuels pour la génération de code multi-tours
Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
February 3, 2026
papers.authors: Ziru Chen, Dongdong Chen, Ruinan Jin, Yingbin Liang, Yujia Xie, Huan Sun
cs.AI
papers.abstract
Récemment, la formation de grands modèles de langage (LLM) par apprentissage par renforcement (RL) pour des tâches du monde réel, telles que la génération de code itérative, a suscité un intérêt de recherche significatif. Bien que le RL en ligne tende à surpasser le RL hors ligne, son coût d'entraînement plus élevé et son instabilité entravent son adoption à grande échelle. Dans cet article, nous partons du constat que la génération de code itérative peut être formulée comme un processus de décision markovien récupérable en une étape et nous proposons l'apprentissage par bandits contextuels avec des trajectoires hors ligne (Cobalt), une nouvelle méthode qui combine les avantages du RL en ligne et hors ligne. Cobalt collecte d'abord des trajectoires de génération de code à l'aide d'un LLM de référence et les divise en trajectoires partielles servant d'invites contextuelles. Ensuite, pendant l'apprentissage en ligne par bandit, le LLM est entraîné à compléter chaque invite de trajectoire partielle via une génération de code en une seule étape. Cobalt surpasse deux méthodes de référence de RL itératif en ligne basées sur GRPO et VeRPO, et améliore considérablement les modèles R1-Distill 8B et Qwen3 8B avec des gains allant jusqu'à 9,0 et 6,2 points absolus de score Pass@1 sur LiveCodeBench. Par ailleurs, nous analysons les comportements de détournement de récompense en contexte (in-context reward hacking) des LLMs et enrichissons l'entraînement de Cobalt avec des trajectoires perturbées pour atténuer ce problème. Globalement, nos résultats démontrent que Cobalt est une solution prometteuse pour les tâches de prise de décision itérative comme la génération de code multi-tours. Notre code et nos données sont disponibles à l'adresse https://github.com/OSU-NLP-Group/cobalt.
English
Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.