QwenLong-L1: 強化学習を用いた長文脈大規模推論モデルへのアプローチ
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
May 23, 2025
著者: Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
要旨
近年の大規模推論モデル(LRM)は、強化学習(RL)を通じて強力な推論能力を示してきました。これらの改善は主に短い文脈の推論タスクで観察されています。一方で、RLを用いてLRMを長い文脈の入力を効果的に処理し推論するように拡張することは、依然として重要な未解決の課題です。このギャップを埋めるため、我々はまず長文脈推論RLのパラダイムを形式化し、最適でない訓練効率と不安定な最適化プロセスという主要な課題を特定しました。これらの問題に対処するため、我々はQwenLong-L1を提案します。これは、段階的な文脈スケーリングを通じて短い文脈のLRMを長い文脈のシナリオに適応させるフレームワークです。具体的には、堅牢な初期ポリシーを確立するためのウォームアップ教師あり微調整(SFT)段階を利用し、その後、カリキュラムに基づく段階的RL技術を用いてポリシーの進化を安定化し、難易度を考慮した回顧的サンプリング戦略を強化してポリシーの探索を促進します。7つの長文脈文書質問応答ベンチマークでの実験により、QwenLong-L1-32BはOpenAI-o3-miniやQwen3-235B-A22Bといった主要なLRMを上回り、Claude-3.7-Sonnet-Thinkingと同等の性能を達成し、最先端のLRMの中でリーダーシップを発揮することが示されました。この研究は、情報集約的な環境で堅牢な推論が可能な実用的な長文脈LRMの開発を前進させます。
English
Recent large reasoning models (LRMs) have demonstrated strong reasoning
capabilities through reinforcement learning (RL). These improvements have
primarily been observed within the short-context reasoning tasks. In contrast,
extending LRMs to effectively process and reason on long-context inputs via RL
remains a critical unsolved challenge. To bridge this gap, we first formalize
the paradigm of long-context reasoning RL, and identify key challenges in
suboptimal training efficiency and unstable optimization process. To address
these issues, we propose QwenLong-L1, a framework that adapts short-context
LRMs to long-context scenarios via progressive context scaling. Specifically,
we utilize a warm-up supervised fine-tuning (SFT) stage to establish a robust
initial policy, followed by a curriculum-guided phased RL technique to
stabilize the policy evolution, and enhanced with a difficulty-aware
retrospective sampling strategy to incentivize the policy exploration.
Experiments on seven long-context document question-answering benchmarks
demonstrate that QwenLong-L1-32B outperforms flagship LRMs like OpenAI-o3-mini
and Qwen3-235B-A22B, achieving performance on par with
Claude-3.7-Sonnet-Thinking, demonstrating leading performance among
state-of-the-art LRMs. This work advances the development of practical
long-context LRMs capable of robust reasoning across information-intensive
environments.Summary
AI-Generated Summary