QwenLong-L1.5: Nachtrainingsrezept für Langkontext-Argumentation und Speicherverwaltung
QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
December 15, 2025
papers.authors: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
papers.abstract
Wir stellen QwenLong-L1.5 vor, ein Modell, das durch systematische Post-Training-Innovationen überlegene Fähigkeiten im Long-Context Reasoning erreicht. Die wichtigsten technischen Durchbrüche von QwenLong-L1.5 sind folgende: (1) Long-Context Data Synthesis Pipeline: Wir entwickeln einen systematischen Synthese-Framework, der anspruchsvolle Reasoning-Aufgaben generiert, die mehrstufige Verankerung in global verteilten Beweisen erfordern. Durch die Dekonstruktion von Dokumenten in atomare Fakten und deren zugrundeliegende Beziehungen und die anschließende programmatische Zusammensetzung verifizierbarer Reasoning-Fragen erzeugt unser Ansatz hochwertige Trainingsdaten in großem Maßstab und geht damit deutlich über einfache Retrieval-Aufgaben hinaus, um echte Long-Range Reasoning-Fähigkeiten zu ermöglichen. (2) Stabilisiertes Reinforcement Learning für Long-Context-Training: Um die kritische Instabilität im Long-Context-RL zu überwinden, führen wir task-balanced Sampling mit aufgabenspezifischer Advantage-Schätzung ein, um Reward-Bias zu mildern, und schlagen Adaptive Entropy-Controlled Policy Optimization (AEPO) vor, die die Exploration-Exploitation-Abwägung dynamisch reguliert. (3) Speichererweiterte Architektur für ultra-lange Kontexte: In der Erkenntnis, dass selbst erweiterte Kontextfenster nicht beliebig lange Sequenzen aufnehmen können, entwickeln wir ein Speicherverwaltungsframework mit mehrstufigem Fusions-RL-Training, das Single-Pass-Reasoning nahtlos mit iterativer speicherbasierter Verarbeitung für Aufgaben mit über 4M Tokens integriert. Basierend auf Qwen3-30B-A3B-Thinking erreicht QwenLong-L1.5 eine Leistung, die mit GPT-5 und Gemini-2.5-Pro auf Long-Context Reasoning Benchmarks vergleichbar ist und ihren Baseline-Wert im Durchschnitt um 9,90 Punkte übertrifft. Bei ultra-langen Aufgaben (1M~4M Tokens) erzielt QwenLong-L1.5 mit seinem Memory-Agent-Framework einen Gewinn von 9,48 Punkten gegenüber der Agent-Baseline. Zusätzlich überträgt sich die erworbene Long-Context Reasoning-Fähigkeit auf eine verbesserte Leistung in allgemeinen Domänen wie wissenschaftlichem Reasoning, der Nutzung von Speicherwerkzeugen und erweiterten Dialogen.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.