ChatPaper.aiChatPaper

LoongRL: Aprendizado por Reforço para Raciocínio Avançado em Contextos Longos

LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

October 22, 2025
Autores: Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang
cs.AI

Resumo

O raciocínio sobre contextos longos é essencial para modelos de linguagem de grande escala. Embora o aprendizado por reforço (RL) aprimore o raciocínio em contextos curtos ao induzir momentos de "insight" em cadeias de pensamento, os padrões avançados de pensamento necessários para o raciocínio em contextos longos permanecem amplamente inexplorados, e dados de RL de alta dificuldade são escassos. Neste artigo, apresentamos o LoongRL, um método de RL baseado em dados para raciocínio avançado em contextos longos. O cerne do LoongRL é o KeyChain, uma abordagem de síntese que transforma perguntas e respostas (QA) de múltiplos saltos em tarefas de alta dificuldade em contextos longos, inserindo cadeias de UUID que escondem a verdadeira pergunta entre grandes coleções de documentos distratores. Resolver essas tarefas exige que o modelo rastreie a cadeia correta passo a passo, identifique a verdadeira pergunta, recupere fatos relevantes e raciocine sobre eles para responder corretamente. O treinamento de RL com dados do KeyChain induz um padrão emergente de raciocínio planejar-recuperar-raciocinar-reverificar que se generaliza muito além do comprimento de treinamento. Modelos treinados em 16K resolvem efetivamente tarefas de 128K sem os custos proibitivos de execução completa de RL. No Qwen2.5-7B e 14B, o LoongRL melhora substancialmente a precisão de QA de múltiplos saltos em contextos longos, com ganhos absolutos de +23,5% e +21,1%. O LoongRL-14B resultante alcança uma pontuação de 74,2, rivalizando com modelos de fronteira muito maiores, como o o3-mini (74,5) e o DeepSeek-R1 (74,9). Ele também melhora a recuperação em contextos longos, passa em todos os testes de estresse "agulha no palheiro" de 128K e preserva as capacidades de raciocínio em contextos curtos.
English
Reasoning over long contexts is essential for large language models. While reinforcement learning (RL) enhances short-context reasoning by inducing "Aha" moments in chain-of-thought, the advanced thinking patterns required for long-context reasoning remain largely unexplored, and high-difficulty RL data are scarce. In this paper, we introduce LoongRL, a data-driven RL method for advanced long-context reasoning. Central to LoongRL is KeyChain, a synthesis approach that transforms short multi-hop QA into high-difficulty long-context tasks by inserting UUID chains that hide the true question among large collections of distracting documents. Solving these tasks requires the model to trace the correct chain step-by-step, identify the true question, retrieve relevant facts and reason over them to answer correctly. RL training on KeyChain data induces an emergent plan-retrieve-reason-recheck reasoning pattern that generalizes far beyond training length. Models trained at 16K effectively solve 128K tasks without prohibitive full-length RL rollout costs. On Qwen2.5-7B and 14B, LoongRL substantially improves long-context multi-hop QA accuracy by +23.5% and +21.1% absolute gains. The resulting LoongRL-14B reaches a score of 74.2, rivaling much larger frontier models such as o3-mini (74.5) and DeepSeek-R1 (74.9). It also improves long-context retrieval, passes all 128K needle-in-a-haystack stress tests, and preserves short-context reasoning capabilities.
PDF351October 23, 2025