QwenLong-L1: Naar Lang-Context Grote Redeneermodellen met Reinforcement Learning
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
May 23, 2025
Auteurs: Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Samenvatting
Recente grote redeneermodellen (LRMs) hebben sterke redeneervaardigheden getoond door middel van reinforcement learning (RL). Deze verbeteringen zijn voornamelijk waargenomen binnen taken voor kort-context redeneren. Daarentegen blijft het uitbreiden van LRMs om effectief lange-context invoer te verwerken en daarover te redeneren via RL een kritieke, onopgeloste uitdaging. Om deze kloof te overbruggen, formaliseren we eerst het paradigma van lange-context redeneren RL, en identificeren we belangrijke uitdagingen in suboptimale trainings efficiëntie en een onstabiel optimalisatieproces. Om deze problemen aan te pakken, stellen we QwenLong-L1 voor, een raamwerk dat kort-context LRMs aanpast aan lange-context scenario's via progressieve contextschaling. Specifiek gebruiken we een warm-up supervised fine-tuning (SFT) fase om een robuust initieel beleid te vestigen, gevolgd door een curriculum-geleide gefaseerde RL techniek om de beleidsevolutie te stabiliseren, en versterkt met een moeilijkheidsbewuste retrospectieve bemonsteringsstrategie om beleidsverkenning te stimuleren. Experimenten op zeven lange-context document vraag-antwoord benchmarks tonen aan dat QwenLong-L1-32B toonaangevende LRMs zoals OpenAI-o3-mini en Qwen3-235B-A22B overtreft, en prestaties bereikt die vergelijkbaar zijn met Claude-3.7-Sonnet-Thinking, wat leidende prestaties aantoont onder state-of-the-art LRMs. Dit werk bevordert de ontwikkeling van praktische lange-context LRMs die in staat zijn tot robuust redeneren in informatie-intensieve omgevingen.
English
Recent large reasoning models (LRMs) have demonstrated strong reasoning
capabilities through reinforcement learning (RL). These improvements have
primarily been observed within the short-context reasoning tasks. In contrast,
extending LRMs to effectively process and reason on long-context inputs via RL
remains a critical unsolved challenge. To bridge this gap, we first formalize
the paradigm of long-context reasoning RL, and identify key challenges in
suboptimal training efficiency and unstable optimization process. To address
these issues, we propose QwenLong-L1, a framework that adapts short-context
LRMs to long-context scenarios via progressive context scaling. Specifically,
we utilize a warm-up supervised fine-tuning (SFT) stage to establish a robust
initial policy, followed by a curriculum-guided phased RL technique to
stabilize the policy evolution, and enhanced with a difficulty-aware
retrospective sampling strategy to incentivize the policy exploration.
Experiments on seven long-context document question-answering benchmarks
demonstrate that QwenLong-L1-32B outperforms flagship LRMs like OpenAI-o3-mini
and Qwen3-235B-A22B, achieving performance on par with
Claude-3.7-Sonnet-Thinking, demonstrating leading performance among
state-of-the-art LRMs. This work advances the development of practical
long-context LRMs capable of robust reasoning across information-intensive
environments.