Ragionatore Parallelo Nativo: Ragionamento in Parallelismo tramite Apprendimento per Rinforzo Auto-Distillato
Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
December 8, 2025
Autori: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI
Abstract
Introduciamo Native Parallel Reasoner (NPR), un framework senza supervisione esterna che consente ai Large Language Model (LLM) di auto-sviluppare genuine capacità di ragionamento parallelo. NPR trasforma il modello dall'emulazione sequenziale alla cognizione parallela nativa attraverso tre innovazioni chiave: 1) un paradigma di addestramento progressivo auto-distillato che passa dalla scoperta di formati in "cold-start" a vincoli topologici rigorosi senza supervisione esterna; 2) un nuovo algoritmo di Parallel-Aware Policy Optimization (PAPO) che ottimizza le politiche di ramificazione direttamente all'interno del grafo di esecuzione, consentendo al modello di apprendere la scomposizione adattiva tramite tentativi ed errori; e 3) un robusto NPR Engine che ristruttura la gestione della memoria e il controllo del flusso di SGLang per abilitare un addestramento RL parallelo su larga scala e stabile. Su otto benchmark di ragionamento, NPR addestrato su Qwen3-4B raggiunge miglioramenti delle prestazioni fino al 24,5% e accelerazioni inferenziali fino a 4,6x. A differenza delle baseline precedenti che spesso ricadono nella decodifica autoregressiva, NPR dimostra un'esecuzione parallela genuina al 100%, stabilendo un nuovo standard per il ragionamento agentivo auto-evolutivo, efficiente e scalabile.
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.