QwenLong-L1.5: Protocolo de Pós-Treinamento para Raciocínio em Contexto Longo e Gerenciamento de Memória
QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
December 15, 2025
Autores: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Resumo
Apresentamos o QwenLong-L1.5, um modelo que alcança capacidades superiores de raciocínio de contexto longo por meio de inovações sistemáticas de pós-treinamento. Os principais avanços técnicos do QwenLong-L1.5 são os seguintes: (1) *Pipeline* de Síntese de Dados de Contexto Longo: Desenvolvemos uma estrutura de síntese sistemática que gera tarefas de raciocínio desafiadoras, exigindo fundamentação multi-etapa em evidências distribuídas globalmente. Ao desconstruir documentos em factos atómicos e suas relações subjacentes, e depois compor programaticamente questões de raciocínio verificáveis, a nossa abordagem cria dados de treino de alta qualidade em escala, indo substancialmente além de simples tarefas de recuperação para permitir genuínas capacidades de raciocínio de longo alcance. (2) Aprendizagem por Reforço Estabilizada para Treino de Contexto Longo: Para superar a instabilidade crítica na aprendizagem por reforço (RL) de contexto longo, introduzimos uma amostragem balanceada por tarefa com estimativa de vantagem específica por tarefa para mitigar o viés de recompensa, e propomos a Otimização de Política com Entropia Adaptativa Controlada (AEPO), que regula dinamicamente os compromissos entre exploração e exploração. (3) Arquitetura Aumentada por Memória para Contextos Ultra-Longos: Reconhecendo que mesmo janelas de contexto estendidas não podem acomodar sequências arbitrariamente longas, desenvolvemos uma estrutura de gestão de memória com treino de RL de fusão multi-etapa que integra perfeitamente o raciocínio de passagem única com o processamento iterativo baseado em memória para tarefas que excedem 4M *tokens*. Com base no Qwen3-30B-A3B-Thinking, o QwenLong-L1.5 alcança um desempenho comparável ao GPT-5 e ao Gemini-2.5-Pro em benchmarks de raciocínio de contexto longo, superando a sua linha de base em 9,90 pontos em média. Em tarefas ultra-longas (1M~4M *tokens*), a estrutura de agente de memória do QwenLong-L1.5 proporciona um ganho de 9,48 pontos sobre a linha de base do agente. Adicionalmente, a capacidade de raciocínio de contexto longo adquirida traduz-se num desempenho melhorado em domínios gerais, como raciocínio científico, utilização de ferramentas de memória e diálogo estendido.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.