QwenLong-L1: Hacia Modelos de Razonamiento a Gran Escala con Contexto Extendido mediante Aprendizaje por Refuerzo
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
May 23, 2025
Autores: Fanqi Wan, Weizhou Shen, Shengyi Liao, Yingcheng Shi, Chenliang Li, Ziyi Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan
cs.AI
Resumen
Los modelos recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado capacidades sólidas de razonamiento mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés). Estas mejoras se han observado principalmente en tareas de razonamiento de contexto corto. En contraste, extender los LRMs para procesar y razonar eficazmente sobre entradas de contexto largo mediante RL sigue siendo un desafío crítico sin resolver. Para cerrar esta brecha, primero formalizamos el paradigma de RL para razonamiento de contexto largo e identificamos los principales desafíos en la eficiencia subóptima del entrenamiento y el proceso de optimización inestable. Para abordar estos problemas, proponemos QwenLong-L1, un marco que adapta los LRMs de contexto corto a escenarios de contexto largo mediante un escalado progresivo del contexto. Específicamente, utilizamos una etapa de ajuste fino supervisado (SFT, por sus siglas en inglés) de calentamiento para establecer una política inicial robusta, seguida de una técnica de RL guiada por un currículo en fases para estabilizar la evolución de la política, y mejorada con una estrategia de muestreo retrospectivo consciente de la dificultad para incentivar la exploración de la política. Los experimentos en siete puntos de referencia de preguntas y respuestas sobre documentos de contexto largo demuestran que QwenLong-L1-32B supera a LRMs destacados como OpenAI-o3-mini y Qwen3-235B-A22B, logrando un rendimiento comparable a Claude-3.7-Sonnet-Thinking, lo que demuestra un desempeño líder entre los LRMs más avanzados. Este trabajo avanza en el desarrollo de LRMs prácticos de contexto largo capaces de razonar de manera robusta en entornos intensivos en información.
English
Recent large reasoning models (LRMs) have demonstrated strong reasoning
capabilities through reinforcement learning (RL). These improvements have
primarily been observed within the short-context reasoning tasks. In contrast,
extending LRMs to effectively process and reason on long-context inputs via RL
remains a critical unsolved challenge. To bridge this gap, we first formalize
the paradigm of long-context reasoning RL, and identify key challenges in
suboptimal training efficiency and unstable optimization process. To address
these issues, we propose QwenLong-L1, a framework that adapts short-context
LRMs to long-context scenarios via progressive context scaling. Specifically,
we utilize a warm-up supervised fine-tuning (SFT) stage to establish a robust
initial policy, followed by a curriculum-guided phased RL technique to
stabilize the policy evolution, and enhanced with a difficulty-aware
retrospective sampling strategy to incentivize the policy exploration.
Experiments on seven long-context document question-answering benchmarks
demonstrate that QwenLong-L1-32B outperforms flagship LRMs like OpenAI-o3-mini
and Qwen3-235B-A22B, achieving performance on par with
Claude-3.7-Sonnet-Thinking, demonstrating leading performance among
state-of-the-art LRMs. This work advances the development of practical
long-context LRMs capable of robust reasoning across information-intensive
environments.Summary
AI-Generated Summary