QwenLong-L1.5: Post-Training Recept voor Redeneren in Lange Contexten en Geheugenbeheer
QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
December 15, 2025
Auteurs: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Samenvatting
Wij introduceren QwenLong-L1.5, een model dat superieure lang-context redeneercapaciteiten bereikt door systematische *post-training* innovaties. De belangrijkste technische doorbraken van QwenLong-L1.5 zijn als volgt: (1) *Long-Context Data Synthesis Pipeline*: Wij ontwikkelen een systematisch synthese-raamwerk dat uitdagende redeneertaken genereert die *multi-hop grounding* vereisen over globaal verspreide informatie. Door documenten te deconstrueren in atomische feiten en hun onderliggende relaties, en vervolgens programmeermatig verifieerbare redeneervragen samen te stellen, creëert onze aanpak hoogwaardige trainingsdata op schaal, wat een aanzienlijke verbetering is ten opzichte van eenvoudige retrievalthandelingen en echte langetermijnredeneercapaciteiten mogelijk maakt. (2) Gestabiliseerde *Reinforcement Learning* voor Lang-Context Training: Om de kritieke instabiliteit in lang-context RL te overwinnen, introduceren wij *task-balanced sampling* met *task-specific advantage estimation* om *reward bias* te mitigeren, en stellen *Adaptive Entropy-Controlled Policy Optimization* (AEPO) voor, dat de *exploration-exploitation trade-offs* dynamisch reguleert. (3) Geheugen-versterkte architectuur voor ultra-lange contexten: Erkennend dat zelfs uitgebreide contextvensters niet willekeurig lange sequenties kunnen accommoderen, ontwikkelen wij een geheugenbeheerraamwerk met *multi-stage fusion RL*-training dat *single-pass* redeneren naadloos integreert met iteratieve, op geheugen gebaseerde verwerking voor taken die 4M *tokens* overschrijden. Gebaseerd op Qwen3-30B-A3B-Thinking, bereikt QwenLong-L1.5 prestaties vergelijkbaar met GPT-5 en Gemini-2.5-Pro op *long-context reasoning benchmarks*, en overtreft zijn *baseline* gemiddeld met 9.90 punten. Op ultra-lange taken (1M~4M *tokens*) levert het geheugen-*agent* raamwerk van QwenLong-L1.5 een winst van 9.48 punten op ten opzichte van de *agent baseline*. Bovendien vertaalt de verworven lang-context redeneervaardigheid zich naar verbeterde prestaties in algemene domeinen zoals wetenschappelijk redeneren, het gebruik van geheugeninstrumenten en uitgebreide dialoog.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.