ChatPaper.aiChatPaper

Brückenschlag zwischen Online- und Offline-RL: Kontextuelles Banditen-Lernen für mehrstufige Code-Generierung

Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation

February 3, 2026
papers.authors: Ziru Chen, Dongdong Chen, Ruinan Jin, Yingbin Liang, Yujia Xie, Huan Sun
cs.AI

papers.abstract

In jüngster Zeit besteht ein erhebliches Forschungsinteresse daran, große Sprachmodelle (LLMs) mit Verstärkendem Lernen (RL) für reale Aufgaben zu trainieren, wie z.B. die Code-Generierung über mehrere Schritte. Obwohl Online-RL tendenziell besser abschneidet als Offline-RL, verhindern seine höheren Trainingskosten und seine Instabilität eine breite Anwendung. In diesem Beitrag knüpfen wir an die Beobachtung an, dass die mehrstufige Code-Generierung als ein einstufiger, wiederherstellbarer Markov-Entscheidungsprozess formuliert werden kann, und schlagen Contextual Bandit Learning with Offline Trajectories (Cobalt) vor – eine neue Methode, die die Vorteile von Online- und Offline-RL kombiniert. Cobalt sammelt zunächst Code-Generierungspfade mithilfe eines Referenz-LLMs und unterteilt diese in Teilpfade als kontextuelle Prompts. Während des anschließenden Online-Bandit-Lernens wird das LLM dann trainiert, jeden Teilpfad-Prompt durch einstufige Code-Generierung zu vervollständigen. Cobalt übertrifft zwei mehrstufige Online-RL-Baselines, die auf GRPO und VeRPO basieren, und verbessert R1-Distill 8B und Qwen3 8B auf LiveCodeBench erheblich um bis zu 9,0 bzw. 6,2 absolute Pass@1-Punkte. Zudem analysieren wir In-Context-Reward-Hacking-Verhalten von LLMs und erweitern das Cobalt-Training um perturbierte Pfade, um diesem Problem entgegenzuwirken. Insgesamt zeigen unsere Ergebnisse, dass Cobalt eine vielversprechende Lösung für iterative Entscheidungsaufgaben wie die mehrstufige Code-Generierung darstellt. Unser Code und unsere Daten sind unter https://github.com/OSU-NLP-Group/cobalt verfügbar.
English
Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.
PDF31February 5, 2026