QwenLong-L1.5: Ricetta di Post-Addestramento per Ragionamento su Contesti Lunghi e Gestione della Memoria
QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
December 15, 2025
Autori: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Abstract
Introduciamo QwenLong-L1.5, un modello che raggiunge capacità di ragionamento su contesti lunghi superiori attraverso innovazioni sistematiche nel post-addestramento. Le principali innovazioni tecniche di QwenLong-L1.5 sono le seguenti: (1) *Pipeline di Sintesi di Dati per Contesti Lunghi*: Abbiamo sviluppato un framework di sintesi sistematico che genera compiti di ragionamento complessi che richiedono un ancoraggio multi-hop su evidenze distribuite globalmente. Scomponendo i documenti in fatti atomici e le loro relazioni sottostanti, e componendo poi programmaticamente domande di ragionamento verificabili, il nostro approccio crea dati di addestramento di alta qualità su larga scala, andando sostanzialmente oltre i semplici compiti di recupero dell'informazione per abilitare genuine capacità di ragionamento a lungo raggio. (2) *Apprendimento per Rinforzo Stabilizzato per l'Addestramento su Contesti Lunghi*: Per superare l'instabilità critica nell'RL per contesti lunghi, introduciamo un campionamento bilanciato per task con stima del vantaggio specifica per task per mitigare il bias della ricompensa, e proponiamo un'Optimizzazione della Politica con Controllo Entropico Adattivo (AEPO) che regola dinamicamente i compromessi esplorazione-sfruttamento. (3) *Architettura Potenziata con Memoria per Contesti Ultra-Lunghi*: Riconoscendo che persino finestre di contesto estese non possono accomodare sequenze arbitrariamente lunghe, sviluppiamo un framework di gestione della memoria con addestramento RL a fusione multi-stadio che integra perfettamente il ragionamento single-pass con l'elaborazione iterativa basata su memoria per compiti che superano i 4 milioni di token. Basandosi su Qwen3-30B-A3B-Thinking, QwenLong-L1.5 raggiunge prestazioni paragonabili a GPT-5 e Gemini-2.5-Pro sui benchmark di ragionamento su contesti lunghi, superando la sua baseline di 9,90 punti in media. Su compiti ultra-lunghi (1M~4M token), il framework agente-memoria di QwenLong-L1.5 produce un guadagno di 9,48 punti rispetto alla baseline agente. Inoltre, la capacità di ragionamento su contesti lunghi acquisita si traduce in prestazioni potenziate in domini generali come il ragionamento scientifico, l'uso di strumenti di memoria e i dialoghi estesi.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.