QwenLong-L1.5: 장기 문맥 추론 및 메모리 관리를 위한 사후 학습 방법론
QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
December 15, 2025
저자: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
초록
QwenLong-L1.5을 소개합니다. 본 모델은 체계적인 사후 훈련(post-training) 혁신을 통해 우수한 장문 맥락 추론 능력을 달성했습니다. QwenLong-L1.5의 핵심 기술적 돌파구는 다음과 같습니다. (1) 장문 맥락 데이터 합성 파이프라인: 전역적으로 분산된 증거에 대한 다중 홉 근거화(multi-hop grounding)를 필요로 하는 도전적인 추론 과제를 생성하는 체계적인 합성 프레임워크를 개발했습니다. 문서를 원자적 사실과 그 밑바탕의 관계로 해체한 후, 프로그램 방식으로 검증 가능한 추론 질문을 구성함으로써, 단순한 검색 작업을 크게 넘어서 진정한 장거리 추론 능력을 가능하게 하는 고품질 훈련 데이터를 대규모로 생성합니다. (2) 장문 맥락 훈련을 위한 안정화된 강화 학습: 장문 맥락 강화 학습(RL)에서 발생하는 중요한 불안정성을 극복하기 위해, 보상 편향을 완화하는 과제별 이점 추정(task-specific advantage estimation)을 통한 과제 균형 샘플링(task-balanced sampling)을 도입하고, 탐험-활용 균형(exploration-exploitation trade-offs)을 동적으로 조절하는 적응형 엔트로피 제어 정책 최적화(AEPO)를 제안합니다. (3) 초장문 맥락을 위한 메모리 증강 아키텍처: 확장된 맥락 창문만으로는 임의로 긴 시퀀스를 수용할 수 없음을 인지하고, 400만 토큰을 초과하는 과제를 위해 단일 패스 추론(single-pass reasoning)과 반복적 메모리 기반 처리를 원활하게 통합하는 다단계 융합 강화 학습 훈련을 갖춘 메모리 관리 프레임워크를 개발했습니다. Qwen3-30B-A3B-Thinking을 기반으로 하는 QwenLong-L1.5는 장문 맥락 추론 벤치마크에서 GPT-5 및 Gemini-2.5-Pro에 필적하는 성능을 달성하여 기준 모델 대비 평균 9.90점을 앞섭니다. 초장문 과제(100만~400만 토큰)에서 QwenLong-L1.5의 메모리-에이전트 프레임워크는 에이전트 기준선 대비 9.48점의 성능 향상을 가져옵니다. 또한, 획득한 장문 맥락 추론 능력은 과학적 추론, 메모리 도구 사용, 확장된 대화와 같은 일반 영역에서의 향상된 성능으로도 이어집니다.
English
We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.