ChatPaper.aiChatPaper

QwenLong-L1: Naar Lang-Context Grote Redeneermodellen met Reinforcement Learning

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

May 23, 2025
Auteurs: Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

Samenvatting

Recente grote redeneermodellen (LRMs) hebben sterke redeneervaardigheden getoond door middel van reinforcement learning (RL). Deze verbeteringen zijn voornamelijk waargenomen binnen taken voor kort-context redeneren. Daarentegen blijft het uitbreiden van LRMs om effectief lange-context invoer te verwerken en daarover te redeneren via RL een kritieke, onopgeloste uitdaging. Om deze kloof te overbruggen, formaliseren we eerst het paradigma van lange-context redeneren RL, en identificeren we belangrijke uitdagingen in suboptimale trainings efficiëntie en een onstabiel optimalisatieproces. Om deze problemen aan te pakken, stellen we QwenLong-L1 voor, een raamwerk dat kort-context LRMs aanpast aan lange-context scenario's via progressieve contextschaling. Specifiek gebruiken we een warm-up supervised fine-tuning (SFT) fase om een robuust initieel beleid te vestigen, gevolgd door een curriculum-geleide gefaseerde RL techniek om de beleidsevolutie te stabiliseren, en versterkt met een moeilijkheidsbewuste retrospectieve bemonsteringsstrategie om beleidsverkenning te stimuleren. Experimenten op zeven lange-context document vraag-antwoord benchmarks tonen aan dat QwenLong-L1-32B toonaangevende LRMs zoals OpenAI-o3-mini en Qwen3-235B-A22B overtreft, en prestaties bereikt die vergelijkbaar zijn met Claude-3.7-Sonnet-Thinking, wat leidende prestaties aantoont onder state-of-the-art LRMs. Dit werk bevordert de ontwikkeling van praktische lange-context LRMs die in staat zijn tot robuust redeneren in informatie-intensieve omgevingen.
English
Recent large reasoning models (LRMs) have demonstrated strong reasoning capabilities through reinforcement learning (RL). These improvements have primarily been observed within the short-context reasoning tasks. In contrast, extending LRMs to effectively process and reason on long-context inputs via RL remains a critical unsolved challenge. To bridge this gap, we first formalize the paradigm of long-context reasoning RL, and identify key challenges in suboptimal training efficiency and unstable optimization process. To address these issues, we propose QwenLong-L1, a framework that adapts short-context LRMs to long-context scenarios via progressive context scaling. Specifically, we utilize a warm-up supervised fine-tuning (SFT) stage to establish a robust initial policy, followed by a curriculum-guided phased RL technique to stabilize the policy evolution, and enhanced with a difficulty-aware retrospective sampling strategy to incentivize the policy exploration. Experiments on seven long-context document question-answering benchmarks demonstrate that QwenLong-L1-32B outperforms flagship LRMs like OpenAI-o3-mini and Qwen3-235B-A22B, achieving performance on par with Claude-3.7-Sonnet-Thinking, demonstrating leading performance among state-of-the-art LRMs. This work advances the development of practical long-context LRMs capable of robust reasoning across information-intensive environments.
PDF883May 26, 2025