Parallel-R1: Rumando ao Pensamento Paralelo via Aprendizado por Reforço
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
September 9, 2025
Autores: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu
cs.AI
Resumo
O pensamento paralelo surgiu como uma abordagem inovadora para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs) ao explorar múltiplos caminhos de raciocínio simultaneamente. No entanto, ativar tais capacidades por meio de treinamento permanece desafiador, pois os métodos existentes dependem predominantemente de ajuste fino supervisionado (SFT) sobre dados sintéticos, o que incentiva a imitação forçada pelo professor em vez de exploração e generalização. Diferentemente deles, propomos o Parallel-R1, o primeiro framework de aprendizado por reforço (RL) que habilita comportamentos de pensamento paralelo para tarefas complexas de raciocínio do mundo real. Nosso framework emprega um currículo progressivo que aborda explicitamente o problema de inicialização a frio no treinamento de pensamento paralelo com RL. Primeiro, utilizamos SFT em trajetórias geradas por prompts de tarefas mais simples para instilar a capacidade de pensamento paralelo, depois fazemos a transição para RL para explorar e generalizar essa habilidade em problemas mais difíceis. Experimentos em diversos benchmarks matemáticos, incluindo MATH, AMC23 e AIME, mostram que o Parallel-R1 instila com sucesso o pensamento paralelo, levando a melhorias de 8,4% na precisão em relação ao modelo de pensamento sequencial treinado diretamente em tarefas desafiadoras com RL. Uma análise mais aprofundada revela uma mudança clara no comportamento de pensamento do modelo: em um estágio inicial, ele usa o pensamento paralelo como uma estratégia de exploração, enquanto em um estágio posterior, ele usa a mesma capacidade para verificação multiperspectiva. Mais significativamente, validamos o pensamento paralelo como um andaime de exploração durante o treinamento, onde essa fase exploratória temporária desbloqueia um teto de desempenho mais alto após o RL, resultando em uma melhoria de 42,9% em relação à linha de base no AIME25. Nosso modelo, dados e código serão disponibilizados como código aberto em https://github.com/zhengkid/Parallel-R1.
English
Parallel thinking has emerged as a novel approach for enhancing the reasoning
capabilities of large language models (LLMs) by exploring multiple reasoning
paths concurrently. However, activating such capabilities through training
remains challenging, as existing methods predominantly rely on supervised
fine-tuning (SFT) over synthetic data, which encourages teacher-forced
imitation rather than exploration and generalization. Different from them, we
propose Parallel-R1, the first reinforcement learning (RL) framework
that enables parallel thinking behaviors for complex real-world reasoning
tasks. Our framework employs a progressive curriculum that explicitly addresses
the cold-start problem in training parallel thinking with RL. We first use SFT
on prompt-generated trajectories from easier tasks to instill the parallel
thinking ability, then transition to RL to explore and generalize this skill on
harder problems. Experiments on various math benchmarks, including MATH, AMC23,
and AIME, show that Parallel-R1 successfully instills parallel thinking,
leading to 8.4% accuracy improvements over the sequential thinking model
trained directly on challenging tasks with RL. Further analysis reveals a clear
shift in the model's thinking behavior: at an early stage, it uses parallel
thinking as an exploration strategy, while in a later stage, it uses the same
capability for multi-perspective verification. Most significantly, we validate
parallel thinking as a mid-training exploration scaffold, where this
temporary exploratory phase unlocks a higher performance ceiling after RL,
yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and
code will be open-source at https://github.com/zhengkid/Parallel-R1.