Natives Paralleles Reasoning: Parallelschaltendes Schließen durch selbst-distilliertes bestärkendes Lernen
Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
December 8, 2025
papers.authors: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI
papers.abstract
Wir stellen Native Parallel Reasoner (NPR) vor, ein lehrerfreies Framework, das Large Language Models (LLMs) befähigt, echte parallele Reasoning-Fähigkeiten selbstständig zu entwickeln. NPR transformiert das Modell von sequenzieller Emulation zu nativer paralleler Kognition durch drei zentrale Innovationen: 1) ein selbst-distilliertes, progressives Trainingsparadigma, das ohne externe Aufsicht von der „Kaltstart“-Formatentdeckung zu strengen topologischen Constraints übergeht; 2) einen neuartigen Parallel-Aware Policy Optimization (PAPO)-Algorithmus, der Verzweigungsstrategien direkt innerhalb des Ausführungsgraphen optimiert und es dem Modell ermöglicht, adaptive Zerlegung durch Versuch und Irrtum zu erlernen; und 3) eine robuste NPR-Engine, die die Speicherverwaltung und Ablaufsteuerung von SGLang refaktorisiert, um stabiles, großskaliges paralleles RL-Training zu ermöglichen. Über acht Reasoning-Benchmarks hinweg erzielt NPR, trainiert auf Qwen3-4B, Leistungssteigerungen von bis zu 24,5 % und Beschleunigungen beim Inferenzvorgang von bis zum 4,6-Fachen. Im Gegensatz zu früheren Baseline-Modellen, die häufig auf autoregressive Decodierung zurückfallen, demonstriert NPR zu 100 % echte parallele Ausführung und setzt damit einen neuen Standard für sich selbst entwickelndes, effizientes und skalierbares agentenbasiertes Reasoning.
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.