ChatPaper.aiChatPaper

QwenLong-L1.5: Receta de Post-Entrenamiento para el Razonamiento de Contexto Largo y la Gestión de Memoria

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

December 15, 2025
Autores: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

Resumen

Presentamos QwenLong-L1.5, un modelo que logra capacidades superiores de razonamiento en contextos extensos mediante innovaciones sistemáticas en el post-entrenamiento. Los avances técnicos clave de QwenLong-L1.5 son los siguientes: (1) *Pipeline* de Síntesis de Datos para Contextos Extensos: Desarrollamos un marco de síntesis sistemático que genera tareas de razonamiento complejas que requieren una fundamentación multi-etapa sobre evidencia distribuida globalmente. Al deconstruir documentos en hechos atómicos y sus relaciones subyacentes, y luego componer programáticamente preguntas de razonamiento verificables, nuestro enfoque crea datos de entrenamiento de alta calidad a gran escala, yendo sustancialmente más allá de las tareas de recuperación simples para permitir capacidades genuinas de razonamiento de largo alcance. (2) Aprendizaje por Refuerzo Estabilizado para Entrenamiento en Contextos Extensos: Para superar la inestabilidad crítica en el aprendizaje por refuerzo (RL) para contextos extensos, introducimos un muestreo balanceado por tareas con estimación de ventaja específica para mitigar el sesgo de la recompensa, y proponemos una Optimización de Políticas con Control de Entropía Adaptativa (AEPO) que regula dinámicamente las compensaciones entre exploración y explotación. (3) Arquitectura Aumentada con Memoria para Contextos Ultra-Extensos: Reconociendo que incluso las ventanas de contexto extendidas no pueden acomodar secuencias arbitrariamente largas, desarrollamos un marco de gestión de memoria con entrenamiento RL de fusión multi-etapa que integra perfectamente el razonamiento de pasada única con el procesamiento iterativo basado en memoria para tareas que superan los 4 millones de *tokens*. Basado en Qwen3-30B-A3B-Thinking, QwenLong-L1.5 alcanza un rendimiento comparable a GPT-5 y Gemini-2.5-Pro en puntos de referencia de razonamiento en contextos extensos, superando a su línea base por 9.90 puntos en promedio. En tareas ultra-extensas (1M~4M *tokens*), el marco de agente con memoria de QwenLong-L1.5 produce una ganancia de 9.48 puntos sobre la línea base de agente. Adicionalmente, la capacidad de razonamiento en contextos extensos adquirida se traduce en un rendimiento mejorado en dominios generales como el razonamiento científico, el uso de herramientas de memoria y el diálogo extendido.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.
PDF804December 17, 2025