ChatPaper.aiChatPaper

LoongRL: Обучение с подкреплением для продвинутого логического вывода в длинных контекстах

LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

October 22, 2025
Авторы: Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang
cs.AI

Аннотация

Рассуждения в рамках длинных контекстов имеют ключевое значение для больших языковых моделей. Хотя обучение с подкреплением (RL) улучшает рассуждения в коротких контекстах, вызывая "моменты озарения" в цепочке мыслей, сложные паттерны мышления, необходимые для рассуждений в длинных контекстах, остаются малоизученными, а данные RL высокой сложности — редкими. В данной работе мы представляем LoongRL, метод RL, основанный на данных, для продвинутых рассуждений в длинных контекстах. Основой LoongRL является KeyChain — синтетический подход, который преобразует короткие многошаговые вопросы-ответы (QA) в задачи высокой сложности с длинными контекстами путем вставки цепочек UUID, скрывающих истинный вопрос среди большого количества отвлекающих документов. Решение таких задач требует от модели пошагового отслеживания правильной цепочки, идентификации истинного вопроса, извлечения релевантных фактов и рассуждений над ними для получения правильного ответа. Обучение RL на данных KeyChain вызывает появление паттерна рассуждений "планирование-извлечение-рассуждение-проверка", который обобщается далеко за пределы длины обучения. Модели, обученные на 16K токенах, эффективно решают задачи длиной 128K без затрат на полномасштабные RL-вычисления. На моделях Qwen2.5-7B и 14B LoongRL значительно улучшает точность многошаговых QA в длинных контекстах, показывая абсолютный прирост на +23,5% и +21,1%. В результате LoongRL-14B достигает показателя 74,2, конкурируя с гораздо более крупными передовыми моделями, такими как o3-mini (74,5) и DeepSeek-R1 (74,9). Он также улучшает извлечение информации в длинных контекстах, успешно проходит все стресс-тесты "иголка в стоге сена" длиной 128K и сохраняет способности к рассуждениям в коротких контекстах.
English
Reasoning over long contexts is essential for large language models. While reinforcement learning (RL) enhances short-context reasoning by inducing "Aha" moments in chain-of-thought, the advanced thinking patterns required for long-context reasoning remain largely unexplored, and high-difficulty RL data are scarce. In this paper, we introduce LoongRL, a data-driven RL method for advanced long-context reasoning. Central to LoongRL is KeyChain, a synthesis approach that transforms short multi-hop QA into high-difficulty long-context tasks by inserting UUID chains that hide the true question among large collections of distracting documents. Solving these tasks requires the model to trace the correct chain step-by-step, identify the true question, retrieve relevant facts and reason over them to answer correctly. RL training on KeyChain data induces an emergent plan-retrieve-reason-recheck reasoning pattern that generalizes far beyond training length. Models trained at 16K effectively solve 128K tasks without prohibitive full-length RL rollout costs. On Qwen2.5-7B and 14B, LoongRL substantially improves long-context multi-hop QA accuracy by +23.5% and +21.1% absolute gains. The resulting LoongRL-14B reaches a score of 74.2, rivaling much larger frontier models such as o3-mini (74.5) and DeepSeek-R1 (74.9). It also improves long-context retrieval, passes all 128K needle-in-a-haystack stress tests, and preserves short-context reasoning capabilities.
PDF351October 23, 2025