Parallel-R1: Verso il Pensiero Parallelo tramite Apprendimento per Rinforzo
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
September 9, 2025
Autori: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu
cs.AI
Abstract
Il pensiero parallelo è emerso come un approccio innovativo per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM) esplorando contemporaneamente percorsi di ragionamento multipli. Tuttavia, attivare tali capacità attraverso l'addestramento rimane una sfida, poiché i metodi esistenti si basano principalmente su un fine-tuning supervisionato (SFT) su dati sintetici, che favorisce l'imitazione forzata dall'insegnante piuttosto che l'esplorazione e la generalizzazione. Diversamente, proponiamo Parallel-R1, il primo framework di apprendimento per rinforzo (RL) che abilita comportamenti di pensiero parallelo per compiti di ragionamento complessi nel mondo reale. Il nostro framework utilizza un curriculum progressivo che affronta esplicitamente il problema del cold-start nell'addestramento del pensiero parallelo con RL. Inizialmente, utilizziamo l'SFT su traiettorie generate da prompt per compiti più semplici per instillare la capacità di pensiero parallelo, per poi passare all'RL per esplorare e generalizzare questa abilità su problemi più difficili. Esperimenti su vari benchmark matematici, tra cui MATH, AMC23 e AIME, dimostrano che Parallel-R1 instilla con successo il pensiero parallelo, portando a un miglioramento dell'8,4% nell'accuratezza rispetto al modello di pensiero sequenziale addestrato direttamente su compiti impegnativi con RL. Un'analisi più approfondita rivela un chiaro cambiamento nel comportamento di pensiero del modello: in una fase iniziale, utilizza il pensiero parallelo come strategia di esplorazione, mentre in una fase successiva sfrutta la stessa capacità per una verifica multi-prospettica. Ancora più significativamente, validiamo il pensiero parallelo come un'impalcatura di esplorazione a metà addestramento, dove questa fase esplorativa temporanea sblocca un limite di prestazioni più elevato dopo l'RL, ottenendo un miglioramento del 42,9% rispetto alla baseline su AIME25. Il nostro modello, i dati e il codice saranno open-source su https://github.com/zhengkid/Parallel-R1.
English
Parallel thinking has emerged as a novel approach for enhancing the reasoning
capabilities of large language models (LLMs) by exploring multiple reasoning
paths concurrently. However, activating such capabilities through training
remains challenging, as existing methods predominantly rely on supervised
fine-tuning (SFT) over synthetic data, which encourages teacher-forced
imitation rather than exploration and generalization. Different from them, we
propose Parallel-R1, the first reinforcement learning (RL) framework
that enables parallel thinking behaviors for complex real-world reasoning
tasks. Our framework employs a progressive curriculum that explicitly addresses
the cold-start problem in training parallel thinking with RL. We first use SFT
on prompt-generated trajectories from easier tasks to instill the parallel
thinking ability, then transition to RL to explore and generalize this skill on
harder problems. Experiments on various math benchmarks, including MATH, AMC23,
and AIME, show that Parallel-R1 successfully instills parallel thinking,
leading to 8.4% accuracy improvements over the sequential thinking model
trained directly on challenging tasks with RL. Further analysis reveals a clear
shift in the model's thinking behavior: at an early stage, it uses parallel
thinking as an exploration strategy, while in a later stage, it uses the same
capability for multi-perspective verification. Most significantly, we validate
parallel thinking as a mid-training exploration scaffold, where this
temporary exploratory phase unlocks a higher performance ceiling after RL,
yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and
code will be open-source at https://github.com/zhengkid/Parallel-R1.