ChatPaper.aiChatPaper

QwenLong-L1: К созданию моделей с расширенным контекстом для сложных рассуждений с использованием обучения с подкреплением

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

May 23, 2025
Авторы: Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
cs.AI

Аннотация

Последние крупные модели рассуждений (LRMs) продемонстрировали мощные способности к рассуждению благодаря обучению с подкреплением (RL). Эти улучшения в основном наблюдались в задачах рассуждений с коротким контекстом. В то же время, расширение LRMs для эффективной обработки и рассуждений на длинных контекстах с использованием RL остается важной нерешенной проблемой. Чтобы преодолеть этот разрыв, мы сначала формализуем парадигму RL для рассуждений с длинным контекстом и выявляем ключевые проблемы, такие как неоптимальная эффективность обучения и нестабильность процесса оптимизации. Для решения этих проблем мы предлагаем QwenLong-L1 — фреймворк, который адаптирует LRMs с коротким контекстом к сценариям с длинным контекстом через прогрессивное масштабирование контекста. В частности, мы используем этап начальной тонкой настройки с учителем (SFT) для создания устойчивой начальной политики, за которым следует поэтапная техника RL с учебным планом для стабилизации эволюции политики, дополненная стратегией ретроспективной выборки с учетом сложности для стимулирования исследования политики. Эксперименты на семи бенчмарках для ответов на вопросы по длинным документам показывают, что QwenLong-L1-32B превосходит ведущие LRMs, такие как OpenAI-o3-mini и Qwen3-235B-A22B, достигая производительности на уровне Claude-3.7-Sonnet-Thinking и демонстрируя лидирующие результаты среди современных LRMs. Эта работа способствует развитию практических LRMs с длинным контекстом, способных к устойчивым рассуждениям в информационно-насыщенных средах.
English
Recent large reasoning models (LRMs) have demonstrated strong reasoning capabilities through reinforcement learning (RL). These improvements have primarily been observed within the short-context reasoning tasks. In contrast, extending LRMs to effectively process and reason on long-context inputs via RL remains a critical unsolved challenge. To bridge this gap, we first formalize the paradigm of long-context reasoning RL, and identify key challenges in suboptimal training efficiency and unstable optimization process. To address these issues, we propose QwenLong-L1, a framework that adapts short-context LRMs to long-context scenarios via progressive context scaling. Specifically, we utilize a warm-up supervised fine-tuning (SFT) stage to establish a robust initial policy, followed by a curriculum-guided phased RL technique to stabilize the policy evolution, and enhanced with a difficulty-aware retrospective sampling strategy to incentivize the policy exploration. Experiments on seven long-context document question-answering benchmarks demonstrate that QwenLong-L1-32B outperforms flagship LRMs like OpenAI-o3-mini and Qwen3-235B-A22B, achieving performance on par with Claude-3.7-Sonnet-Thinking, demonstrating leading performance among state-of-the-art LRMs. This work advances the development of practical long-context LRMs capable of robust reasoning across information-intensive environments.

Summary

AI-Generated Summary

PDF783May 26, 2025