QwenLong-L1.5:長文脈推論とメモリ管理のためのポストトレーニング手法
QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
December 15, 2025
著者: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
要旨
QwenLong-L1.5を紹介します。本モデルは、体系的なポストトレーニング技術の革新により、優れた長文脈推論能力を実現しています。QwenLong-L1.5の主要な技術的ブレークスルーは以下の通りです。
(1) **長文脈データ合成パイプライン**: 文書を原子的事実とその背後にある関係性に分解し、プログラムによって検証可能な推論問題を構築する体系的合成フレームワークを開発しました。これにより、グローバルに分散した証拠に対するマルチホップの接地を必要とする挑戦的な推論タスクを生成し、単純な検索タスクを大幅に超えた高品質な訓練データを大規模に作成し、真の長距離推論能力を可能にします。
(2) **長文脈訓練のための安定化強化学習**: 長文脈RLにおける重大な不安定性を克服するため、報酬バイアスを軽減するタスク均衡サンプリングとタスク特化のアドバンテージ推定を導入し、探索と利用のトレードオフを動的に調整する適応エントロピー制御方策最適化(AEPO)を提案します。
(3) **超長文脈のためのメモリ拡張アーキテクチャ**: 拡張されたコンテキストウィンドウでさえ任意の長いシーケンスに対応できないことを認識し、4Mトークンを超えるタスクにおいて、単一パス推論と反復的なメモリベース処理をシームレスに統合する、多段階融合RL訓練を備えたメモリ管理フレームワークを開発しました。
Qwen3-30B-A3B-Thinkingを基盤とするQwenLong-L1.5は、長文脈推論ベンチマークにおいてGPT-5やGemini-2.5-Proに匹敵する性能を達成し、ベースラインを平均9.90ポイント上回りました。超長文脈タスク(1M~4Mトークン)では、QwenLong-L1.5のメモリエージェントフレームワークがエージェントベースラインを9.48ポイント上回る効果を示しました。さらに、獲得された長文脈推論能力は、科学的推論、メモリツールの使用、拡張対話などの一般的な領域における性能向上にも寄与しています。
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.