QwenLong-L1: Naar Lang-Context Grote Redeneermodellen met Reinforcement Learning

Samenvatting

Recente grote redeneermodellen (LRMs) hebben sterke redeneervaardigheden getoond door middel van reinforcement learning (RL). Deze verbeteringen zijn voornamelijk waargenomen binnen taken voor kort-context redeneren. Daarentegen blijft het uitbreiden van LRMs om effectief lange-context invoer te verwerken en daarover te redeneren via RL een kritieke, onopgeloste uitdaging. Om deze kloof te overbruggen, formaliseren we eerst het paradigma van lange-context redeneren RL, en identificeren we belangrijke uitdagingen in suboptimale trainings efficiëntie en een onstabiel optimalisatieproces. Om deze problemen aan te pakken, stellen we QwenLong-L1 voor, een raamwerk dat kort-context LRMs aanpast aan lange-context scenario's via progressieve contextschaling. Specifiek gebruiken we een warm-up supervised fine-tuning (SFT) fase om een robuust initieel beleid te vestigen, gevolgd door een curriculum-geleide gefaseerde RL techniek om de beleidsevolutie te stabiliseren, en versterkt met een moeilijkheidsbewuste retrospectieve bemonsteringsstrategie om beleidsverkenning te stimuleren. Experimenten op zeven lange-context document vraag-antwoord benchmarks tonen aan dat QwenLong-L1-32B toonaangevende LRMs zoals OpenAI-o3-mini en Qwen3-235B-A22B overtreft, en prestaties bereikt die vergelijkbaar zijn met Claude-3.7-Sonnet-Thinking, wat leidende prestaties aantoont onder state-of-the-art LRMs. Dit werk bevordert de ontwikkeling van praktische lange-context LRMs die in staat zijn tot robuust redeneren in informatie-intensieve omgevingen.

English

Recent large reasoning models (LRMs) have demonstrated strong reasoning capabilities through reinforcement learning (RL). These improvements have primarily been observed within the short-context reasoning tasks. In contrast, extending LRMs to effectively process and reason on long-context inputs via RL remains a critical unsolved challenge. To bridge this gap, we first formalize the paradigm of long-context reasoning RL, and identify key challenges in suboptimal training efficiency and unstable optimization process. To address these issues, we propose QwenLong-L1, a framework that adapts short-context LRMs to long-context scenarios via progressive context scaling. Specifically, we utilize a warm-up supervised fine-tuning (SFT) stage to establish a robust initial policy, followed by a curriculum-guided phased RL technique to stabilize the policy evolution, and enhanced with a difficulty-aware retrospective sampling strategy to incentivize the policy exploration. Experiments on seven long-context document question-answering benchmarks demonstrate that QwenLong-L1-32B outperforms flagship LRMs like OpenAI-o3-mini and Qwen3-235B-A22B, achieving performance on par with Claude-3.7-Sonnet-Thinking, demonstrating leading performance among state-of-the-art LRMs. This work advances the development of practical long-context LRMs capable of robust reasoning across information-intensive environments.

QwenLong-L1: Naar Lang-Context Grote Redeneermodellen met Reinforcement Learning

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

Samenvatting

Support