ChatPaper.aiChatPaper

Соединение онлайн и офлайн обучения с подкреплением: контекстуальное обучение бандитов для многократной генерации кода

Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation

February 3, 2026
Авторы: Ziru Chen, Dongdong Chen, Ruinan Jin, Yingbin Liang, Yujia Xie, Huan Sun
cs.AI

Аннотация

В последнее время наблюдается значительный исследовательский интерес к обучению больших языковых моделей (LLM) с подкреплением (RL) для решения реальных задач, таких как многошаговая генерация кода. Хотя онлайн-RL обычно показывает лучшие результаты по сравнению с офлайн-RL, его высокая стоимость обучения и нестабильность препятствуют широкому распространению. В данной статье мы, основываясь на наблюдении, что многошаговую генерацию кода можно представить как одношаговый восстанавливаемый марковский процесс принятия решений, предлагаем контекстное бандитское обучение на офлайн-траекториях (Cobalt) — новый метод, сочетающий преимущества онлайн- и офлайн-RL. Cobalt сначала собирает траектории генерации кода с помощью эталонной LLM и разбивает их на частичные траектории, используемые в качестве контекстных промптов. Затем, в процессе онлайн-бандитского обучения, LLM обучается завершать каждый промпт с частичной траекторией путем одношаговой генерации кода. Cobalt превосходит две базовые многошаговые онлайн-RL модели на основе GRPO и VeRPO и существенно улучшает показатели R1-Distill 8B и Qwen3 8B на целых 9.0 и 6.2 абсолютных балла Pass@1 в LiveCodeBench. Кроме того, мы анализируем поведение LLM, связанное с контекстным взломом функции вознаграждения, и дополняем обучение Cobalt возмущенными траекториями для смягчения этой проблемы. В целом, наши результаты демонстрируют, что Cobalt является перспективным решением для задач итеративного принятия решений, таких как многошаговая генерация кода. Наш код и данные доступны по адресу https://github.com/OSU-NLP-Group/cobalt.
English
Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.
PDF31February 5, 2026