ChatPaper.aiChatPaper

QwenLong-L1.5 : Méthodologie post-entraînement pour le raisonnement en contexte long et la gestion de la mémoire

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

December 15, 2025
papers.authors: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

papers.abstract

Nous présentons QwenLong-L1.5, un modèle qui atteint des capacités de raisonnement en contexte long supérieures grâce à des innovations systématiques en post-formation. Les percées techniques clés de QwenLong-L1.5 sont les suivantes : (1) Pipeline de Synthèse de Données pour Contexte Long : Nous avons développé un cadre de synthèse systématique qui génère des tâches de raisonnement complexes nécessitant un ancrage multi-sauts sur des preuves distribuées globalement. En déconstruisant les documents en faits atomiques et leurs relations sous-jacentes, puis en composant programmatiquement des questions de raisonnement vérifiables, notre approche crée des données d'entraînement de haute qualité à grande échelle, dépassant largement les simples tâches de recherche d'information pour permettre de véritables capacités de raisonnement à longue portée. (2) Apprentissage par Renforcement Stabilisé pour l'Entraînement en Contexte Long : Pour surmonter l'instabilité critique dans l'apprentissage par renforcement (RL) en contexte long, nous introduisons un échantillonnage équilibré par tâche avec une estimation d'avantage spécifique aux tâches pour atténuer le biais de récompense, et proposons une Optimisation de Politique à Entropie Adaptative (AEPO) qui régule dynamiquement les compromis exploration-exploitation. (3) Architecture à Mémoire Augmentée pour Contextes Ultra-Longs : Conscients que même des fenêtres de contexte étendues ne peuvent accueillir des séquences arbitrairement longues, nous avons développé un cadre de gestion de mémoire avec un entraînement RL par fusion multi-étapes qui intègre de manière transparente le raisonnement en une seule passe avec un traitement itératif basé sur la mémoire pour les tâches dépassant 4M de tokens. Basé sur Qwen3-30B-A3B-Thinking, QwenLong-L1.5 atteint des performances comparables à GPT-5 et Gemini-2.5-Pro sur les benchmarks de raisonnement en contexte long, dépassant sa baseline de 9,90 points en moyenne. Sur les tâches ultra-longues (1M~4M tokens), le cadre mémoire-agent de QwenLong-L1.5 procure un gain de 9,48 points par rapport à la baseline agent. De plus, la capacité de raisonnement en contexte long acquise se traduit par une performance améliorée dans des domaines généraux comme le raisonnement scientifique, l'utilisation d'outils de mémoire et le dialogue étendu.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.
PDF804December 17, 2025