ChatPaper.aiChatPaper

Inheemse Parallelle Redeneerder: Redeneren in Parallelisme via Zelf-gedistilleerde Versterkingsleren

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

December 8, 2025
Auteurs: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI

Samenvatting

Wij introduceren Native Parallel Reasoner (NPR), een leraar-vrij raamwerk dat Grote Taalmodellen (LLM's) in staat stelt om zelf authentieke parallelle redeneercapaciteiten te ontwikkelen. NPR transformeert het model van sequentiële emulatie naar native parallelle cognitie door drie belangrijke innovaties: 1) een zelf-gedistilleerd progressief trainingsparadigma dat zonder externe supervisie overgaat van "koude-start" formaatontdekking naar strikte topologische restricties; 2) een nieuw Parallel-Aware Policy Optimization (PAPO) algoritme dat vertakkingsbeleid direct binnen de uitvoeringsgraaf optimaliseert, waardoor het model adaptieve decompositie via trial-and-error kan leren; en 3) een robuuste NPR Engine die het geheugenbeheer en de flow control van SGLang herstructureert om stabiele, grootschalige parallelle RL-training mogelijk te maken. Op acht redeneerbenchmarks behaalt NPR, getraind op Qwen3-4B, prestatieverbeteringen tot 24,5% en inferentieversnellingen tot 4,6x. In tegenstelling tot eerdere baseline-modellen die vaak terugvallen op autoregressieve decodering, demonstreert NPR 100% authentieke parallelle uitvoering, en vestigt zo een nieuwe standaard voor zelf-evoluerend, efficiënt en schaalbaar agent-gebaseerd redeneren.
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.
PDF582December 10, 2025