ネイティブ並列推論:自己蒸留強化学習による並列推論
Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
December 8, 2025
著者: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI
要旨
本論文では、大規模言語モデル(LLM)が真の並列推論能力を自己進化させることを可能にする、教師不要のフレームワーク「Native Parallel Reasoner (NPR)」を提案する。NPRは、以下の3つの核心的イノベーションを通じて、モデルを逐次的な模倣から本来の並列認知へと転換する:1) 外部の監督を必要とせず、「コールドスタート」の形式発見から厳密な位相的制約への移行を実現する、自己蒸留による段階的訓練パラダイム。2) 実行グラフ内で分岐ポリシーを直接最適化する新規アルゴリズム「Parallel-Aware Policy Optimization (PAPO)」により、試行錯誤を通じて適応的な分解を学習させる。3) SGLangのメモリ管理とフロー制御を再構築し、安定した大規模並列強化学習訓練を可能とする堅牢なNPRエンジン。8つの推論ベンチマークにおける評価では、Qwen3-4Bで訓練したNPRが最大24.5%の性能向上と最大4.6倍の推論高速化を達成した。従来のベースラインが自己回帰デコーディングに後退しがちであったのに対し、NPRは100%真の並列実行を実証し、自己進化的で効率的かつスケーラブルなエージェント推論の新たな標準を確立する。
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.