Parallel-R1: Hacia el Pensamiento Paralelo mediante Aprendizaje por Refuerzo
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
September 9, 2025
Autores: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu
cs.AI
Resumen
El pensamiento paralelo ha surgido como un enfoque novedoso para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al explorar múltiples rutas de razonamiento de manera concurrente. Sin embargo, activar tales capacidades mediante entrenamiento sigue siendo un desafío, ya que los métodos existentes dependen predominantemente del ajuste fino supervisado (SFT, por sus siglas en inglés) sobre datos sintéticos, lo que fomenta la imitación forzada por el profesor en lugar de la exploración y la generalización. A diferencia de ellos, proponemos Parallel-R1, el primer marco de aprendizaje por refuerzo (RL, por sus siglas en inglés) que permite comportamientos de pensamiento paralelo para tareas de razonamiento complejas del mundo real. Nuestro marco emplea un currículo progresivo que aborda explícitamente el problema del arranque en frío en el entrenamiento del pensamiento paralelo con RL. Primero utilizamos SFT sobre trayectorias generadas por indicaciones de tareas más sencillas para inculcar la capacidad de pensamiento paralelo, luego pasamos a RL para explorar y generalizar esta habilidad en problemas más difíciles. Los experimentos en varios puntos de referencia matemáticos, como MATH, AMC23 y AIME, muestran que Parallel-R1 logra inculcar el pensamiento paralelo, lo que resulta en una mejora del 8.4% en precisión sobre el modelo de pensamiento secuencial entrenado directamente en tareas desafiantes con RL. Un análisis adicional revela un cambio claro en el comportamiento de pensamiento del modelo: en una etapa temprana, utiliza el pensamiento paralelo como una estrategia de exploración, mientras que en una etapa posterior, utiliza la misma capacidad para la verificación multiperspectiva. Lo más significativo es que validamos el pensamiento paralelo como un andamio de exploración a mitad del entrenamiento, donde esta fase exploratoria temporal desbloquea un límite de rendimiento más alto después de RL, lo que produce una mejora del 42.9% sobre la línea base en AIME25. Nuestro modelo, datos y código serán de código abierto en https://github.com/zhengkid/Parallel-R1.
English
Parallel thinking has emerged as a novel approach for enhancing the reasoning
capabilities of large language models (LLMs) by exploring multiple reasoning
paths concurrently. However, activating such capabilities through training
remains challenging, as existing methods predominantly rely on supervised
fine-tuning (SFT) over synthetic data, which encourages teacher-forced
imitation rather than exploration and generalization. Different from them, we
propose Parallel-R1, the first reinforcement learning (RL) framework
that enables parallel thinking behaviors for complex real-world reasoning
tasks. Our framework employs a progressive curriculum that explicitly addresses
the cold-start problem in training parallel thinking with RL. We first use SFT
on prompt-generated trajectories from easier tasks to instill the parallel
thinking ability, then transition to RL to explore and generalize this skill on
harder problems. Experiments on various math benchmarks, including MATH, AMC23,
and AIME, show that Parallel-R1 successfully instills parallel thinking,
leading to 8.4% accuracy improvements over the sequential thinking model
trained directly on challenging tasks with RL. Further analysis reveals a clear
shift in the model's thinking behavior: at an early stage, it uses parallel
thinking as an exploration strategy, while in a later stage, it uses the same
capability for multi-perspective verification. Most significantly, we validate
parallel thinking as a mid-training exploration scaffold, where this
temporary exploratory phase unlocks a higher performance ceiling after RL,
yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and
code will be open-source at https://github.com/zhengkid/Parallel-R1.