Parallel-R1: Naar Parallel Denken via Reinforcement Learning
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
September 9, 2025
Auteurs: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu
cs.AI
Samenvatting
Parallel denken is naar voren gekomen als een nieuwe benadering om de redeneervaardigheden van grote taalmodellen (LLMs) te verbeteren door meerdere redeneerpaden gelijktijdig te verkennen. Het activeren van dergelijke capaciteiten via training blijft echter een uitdaging, aangezien bestaande methoden voornamelijk vertrouwen op supervised fine-tuning (SFT) over synthetische data, wat teacher-forced imitatie aanmoedigt in plaats van exploratie en generalisatie. In tegenstelling hiermee stellen wij Parallel-R1 voor, het eerste reinforcement learning (RL) raamwerk dat parallel denkgedrag mogelijk maakt voor complexe real-world redeneertaken. Ons raamwerk maakt gebruik van een progressief curriculum dat expliciet het cold-start probleem aanpakt bij het trainen van parallel denken met RL. We gebruiken eerst SFT op prompt-gegenereerde trajecten van eenvoudigere taken om het parallel denkvermogen in te prenten, en schakelen vervolgens over naar RL om deze vaardigheid te verkennen en te generaliseren op moeilijkere problemen. Experimenten op verschillende wiskundige benchmarks, waaronder MATH, AMC23 en AIME, tonen aan dat Parallel-R1 succesvol parallel denken inboet, wat leidt tot een nauwkeurigheidsverbetering van 8,4% ten opzichte van het sequentiële denkmodel dat direct op uitdagende taken met RL is getraind. Verdere analyse onthult een duidelijke verschuiving in het denkgedrag van het model: in een vroeg stadium gebruikt het parallel denken als een exploratiestrategie, terwijl het in een later stadium dezelfde capaciteit gebruikt voor multi-perspectief verificatie. Het meest significant is dat we parallel denken valideren als een mid-training exploratiescaffold, waarbij deze tijdelijke verkenningsfase een hoger prestatieplafond na RL ontsluit, wat een verbetering van 42,9% oplevert ten opzichte van de baseline op AIME25. Ons model, data en code zullen open-source worden gemaakt op https://github.com/zhengkid/Parallel-R1.
English
Parallel thinking has emerged as a novel approach for enhancing the reasoning
capabilities of large language models (LLMs) by exploring multiple reasoning
paths concurrently. However, activating such capabilities through training
remains challenging, as existing methods predominantly rely on supervised
fine-tuning (SFT) over synthetic data, which encourages teacher-forced
imitation rather than exploration and generalization. Different from them, we
propose Parallel-R1, the first reinforcement learning (RL) framework
that enables parallel thinking behaviors for complex real-world reasoning
tasks. Our framework employs a progressive curriculum that explicitly addresses
the cold-start problem in training parallel thinking with RL. We first use SFT
on prompt-generated trajectories from easier tasks to instill the parallel
thinking ability, then transition to RL to explore and generalize this skill on
harder problems. Experiments on various math benchmarks, including MATH, AMC23,
and AIME, show that Parallel-R1 successfully instills parallel thinking,
leading to 8.4% accuracy improvements over the sequential thinking model
trained directly on challenging tasks with RL. Further analysis reveals a clear
shift in the model's thinking behavior: at an early stage, it uses parallel
thinking as an exploration strategy, while in a later stage, it uses the same
capability for multi-perspective verification. Most significantly, we validate
parallel thinking as a mid-training exploration scaffold, where this
temporary exploratory phase unlocks a higher performance ceiling after RL,
yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and
code will be open-source at https://github.com/zhengkid/Parallel-R1.