ChatPaper.aiChatPaper

QwenLong-L1.5: Методика пост-обучения для логических выводов в длинном контексте и управления памятью

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

December 15, 2025
Авторы: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

Аннотация

Мы представляем QwenLong-L1.5 — модель, которая достигает превосходных способностей к рассуждению в длинном контексте благодаря системным инновациям в пост-обучении. Ключевые технические прорывы QwenLong-L1.5 заключаются в следующем: (1) **Конвейер синтеза данных для длинного контекста**: Мы разработали системную framework для генерации сложных задач на рассуждение, требующих многошагового обоснования на основе глобально распределенных свидетельств. Путем декомпозиции документов на атомарные факты и их базовые отношения с последующим программным составлением проверяемых вопросов на рассуждение наш подход создает высококачественные обучающие данные в масштабе, существенно выходя за рамки простых задач поиска и обеспечивая подлинные возможности рассуждения в длинном контексте. (2) **Стабилизированное обучение с подкреплением для тренировки длинного контекста**: Для преодоления критической нестабильности в RL для длинного контекста мы вводим сбалансированное по задачам семплирование с оценкой преимуществ, специфичной для задачи, чтобы снизить смещение вознаграждения, и предлагаем Adaptive Entropy-Controlled Policy Optimization (AEPO), который динамически регулирует баланс между исследованием и эксплуатацией. (3) **Архитектура с расширенной памятью для сверхдлинных контекстов**: Признавая, что даже расширенные окна контекста не могут вместить сколь угодно длинные последовательности, мы разработали framework управления памятью с многоэтапным RL-обучением слияния, который бесшовно интегрирует одношаговое рассуждение с итеративной обработкой на основе памяти для задач, превышающих 4 миллиона токенов. На базе Qwen3-30B-A3B-Thinking, QwenLong-L1.5 демонстрирует производительность, сопоставимую с GPT-5 и Gemini-2.5-Pro на бенчмарках рассуждения в длинном контексте, превосходя свой базовый уровень в среднем на 9.90 баллов. На сверхдлинных задачах (1M~4M токенов) фреймворк памяти-агента QwenLong-L1.5 дает прирост в 9.48 балла по сравнению с агентским базовым уровнем. Кроме того, приобретенная способность к рассуждению в длинном контексте приводит к улучшению производительности в общих областях, таких как научное рассуждение, использование инструментов памяти и расширенный диалог.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.
PDF804December 17, 2025