Parallel-R1 : Vers une pensée parallèle via l'apprentissage par renforcement
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
September 9, 2025
papers.authors: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu
cs.AI
papers.abstract
La pensée parallèle a émergé comme une approche novatrice pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs) en explorant simultanément plusieurs chemins de raisonnement. Cependant, activer de telles capacités par le biais de l'entraînement reste un défi, car les méthodes existantes reposent principalement sur un fine-tuning supervisé (SFT) sur des données synthétiques, ce qui encourage une imitation forcée par l'enseignant plutôt que l'exploration et la généralisation. Contrairement à ces approches, nous proposons Parallel-R1, le premier cadre d'apprentissage par renforcement (RL) qui permet des comportements de pensée parallèle pour des tâches de raisonnement complexes dans le monde réel. Notre cadre utilise un curriculum progressif qui aborde explicitement le problème de démarrage à froid dans l'entraînement de la pensée parallèle avec RL. Nous utilisons d'abord le SFT sur des trajectoires générées par des prompts à partir de tâches plus simples pour inculquer la capacité de pensée parallèle, puis nous passons au RL pour explorer et généraliser cette compétence sur des problèmes plus difficiles. Les expériences sur divers benchmarks mathématiques, notamment MATH, AMC23 et AIME, montrent que Parallel-R1 instille avec succès la pensée parallèle, conduisant à une amélioration de 8,4 % en précision par rapport au modèle de pensée séquentielle entraîné directement sur des tâches difficiles avec RL. Une analyse plus approfondie révèle un changement clair dans le comportement de pensée du modèle : à un stade précoce, il utilise la pensée parallèle comme stratégie d'exploration, tandis qu'à un stade ultérieur, il utilise la même capacité pour une vérification multi-perspective. Plus significativement, nous validons la pensée parallèle comme un échafaudage d'exploration en milieu d'entraînement, où cette phase d'exploration temporaire débloque un plafond de performance plus élevé après le RL, produisant une amélioration de 42,9 % par rapport à la base de référence sur AIME25. Notre modèle, données et code seront open-source à l'adresse https://github.com/zhengkid/Parallel-R1.
English
Parallel thinking has emerged as a novel approach for enhancing the reasoning
capabilities of large language models (LLMs) by exploring multiple reasoning
paths concurrently. However, activating such capabilities through training
remains challenging, as existing methods predominantly rely on supervised
fine-tuning (SFT) over synthetic data, which encourages teacher-forced
imitation rather than exploration and generalization. Different from them, we
propose Parallel-R1, the first reinforcement learning (RL) framework
that enables parallel thinking behaviors for complex real-world reasoning
tasks. Our framework employs a progressive curriculum that explicitly addresses
the cold-start problem in training parallel thinking with RL. We first use SFT
on prompt-generated trajectories from easier tasks to instill the parallel
thinking ability, then transition to RL to explore and generalize this skill on
harder problems. Experiments on various math benchmarks, including MATH, AMC23,
and AIME, show that Parallel-R1 successfully instills parallel thinking,
leading to 8.4% accuracy improvements over the sequential thinking model
trained directly on challenging tasks with RL. Further analysis reveals a clear
shift in the model's thinking behavior: at an early stage, it uses parallel
thinking as an exploration strategy, while in a later stage, it uses the same
capability for multi-perspective verification. Most significantly, we validate
parallel thinking as a mid-training exploration scaffold, where this
temporary exploratory phase unlocks a higher performance ceiling after RL,
yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and
code will be open-source at https://github.com/zhengkid/Parallel-R1.