Parallel-R1: Auf dem Weg zu parallelem Denken durch Reinforcement Learning
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
September 9, 2025
papers.authors: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu
cs.AI
papers.abstract
Paralleles Denken hat sich als neuartiger Ansatz zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) herauskristallisiert, indem mehrere Denkpfade gleichzeitig erkundet werden. Die Aktivierung solcher Fähigkeiten durch Training bleibt jedoch eine Herausforderung, da bestehende Methoden überwiegend auf überwachtes Fein-Tuning (SFT) über synthetische Daten setzen, was eher zur Nachahmung unter Lehrerzwang als zur Exploration und Generalisierung anregt. Im Gegensatz dazu schlagen wir Parallel-R1 vor, das erste Reinforcement-Learning (RL)-Framework, das paralleles Denkverhalten für komplexe reale Denkaufgaben ermöglicht. Unser Framework verwendet einen progressiven Lehrplan, der das Cold-Start-Problem beim Training von parallelem Denken mit RL explizit adressiert. Zunächst nutzen wir SFT auf prompt-generierten Trajektorien aus einfacheren Aufgaben, um die Fähigkeit zum parallelen Denken zu vermitteln, und wechseln dann zu RL, um diese Fähigkeit bei schwierigeren Problemen zu erkunden und zu verallgemeinern. Experimente auf verschiedenen mathematischen Benchmarks, darunter MATH, AMC23 und AIME, zeigen, dass Parallel-R1 erfolgreich paralleles Denken vermittelt und zu einer 8,4%igen Genauigkeitssteigerung gegenüber dem sequenziellen Denkmodell führt, das direkt auf anspruchsvolle Aufgaben mit RL trainiert wurde. Eine weitere Analyse zeigt eine deutliche Veränderung im Denkverhalten des Modells: In einer frühen Phase nutzt es paralleles Denken als Explorationsstrategie, während es in einer späteren Phase dieselbe Fähigkeit zur mehrperspektivischen Überprüfung einsetzt. Am bedeutendsten ist, dass wir paralleles Denken als ein Explorationsgerüst während des Trainings validieren, wobei diese temporäre Explorationsphase eine höhere Leistungsgrenze nach RL freisetzt und eine 42,9%ige Verbesserung gegenüber der Baseline auf AIME25 erzielt. Unser Modell, die Daten und der Code werden unter https://github.com/zhengkid/Parallel-R1 open-source verfügbar sein.
English
Parallel thinking has emerged as a novel approach for enhancing the reasoning
capabilities of large language models (LLMs) by exploring multiple reasoning
paths concurrently. However, activating such capabilities through training
remains challenging, as existing methods predominantly rely on supervised
fine-tuning (SFT) over synthetic data, which encourages teacher-forced
imitation rather than exploration and generalization. Different from them, we
propose Parallel-R1, the first reinforcement learning (RL) framework
that enables parallel thinking behaviors for complex real-world reasoning
tasks. Our framework employs a progressive curriculum that explicitly addresses
the cold-start problem in training parallel thinking with RL. We first use SFT
on prompt-generated trajectories from easier tasks to instill the parallel
thinking ability, then transition to RL to explore and generalize this skill on
harder problems. Experiments on various math benchmarks, including MATH, AMC23,
and AIME, show that Parallel-R1 successfully instills parallel thinking,
leading to 8.4% accuracy improvements over the sequential thinking model
trained directly on challenging tasks with RL. Further analysis reveals a clear
shift in the model's thinking behavior: at an early stage, it uses parallel
thinking as an exploration strategy, while in a later stage, it uses the same
capability for multi-perspective verification. Most significantly, we validate
parallel thinking as a mid-training exploration scaffold, where this
temporary exploratory phase unlocks a higher performance ceiling after RL,
yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and
code will be open-source at https://github.com/zhengkid/Parallel-R1.