ChatPaper.aiChatPaper

Parallel-R1: К параллельному мышлению через обучение с подкреплением

Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

September 9, 2025
Авторы: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Huang, Heng Huang, Dong Yu
cs.AI

Аннотация

Параллельное мышление стало новым подходом для улучшения способностей к рассуждению у крупных языковых моделей (LLM) за счет одновременного исследования нескольких путей рассуждения. Однако активация таких возможностей через обучение остается сложной задачей, поскольку существующие методы в основном полагаются на контролируемое тонкое настраивание (SFT) на синтетических данных, что поощряет имитацию под руководством учителя, а не исследование и обобщение. В отличие от них, мы предлагаем Parallel-R1 — первую структуру обучения с подкреплением (RL), которая обеспечивает поведение параллельного мышления для сложных задач реального мира. Наша структура использует прогрессивную учебную программу, которая явно решает проблему "холодного старта" при обучении параллельному мышлению с помощью RL. Сначала мы применяем SFT на траекториях, сгенерированных из более простых задач, чтобы привить способность к параллельному мышлению, а затем переходим к RL для исследования и обобщения этого навыка на более сложных задачах. Эксперименты на различных математических тестах, включая MATH, AMC23 и AIME, показывают, что Parallel-R1 успешно прививает параллельное мышление, что приводит к улучшению точности на 8,4% по сравнению с моделью последовательного мышления, обученной напрямую на сложных задачах с помощью RL. Дополнительный анализ выявляет четкий сдвиг в поведении модели: на раннем этапе она использует параллельное мышление как стратегию исследования, а на более позднем этапе — для многоперспективной проверки. Наиболее важно то, что мы подтверждаем параллельное мышление как промежуточный этап исследования в процессе обучения, где эта временная исследовательская фаза открывает более высокий потолок производительности после RL, обеспечивая улучшение на 42,9% по сравнению с базовым уровнем на AIME25. Наша модель, данные и код будут открыты по адресу https://github.com/zhengkid/Parallel-R1.
English
Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose Parallel-R1, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a mid-training exploration scaffold, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.
PDF873September 10, 2025