Raisonnement Parallèle Autonome : Raisonnement en Parallèle par Apprentissage par Renforcement Auto-distillé
Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
December 8, 2025
papers.authors: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI
papers.abstract
Nous présentons Native Parallel Reasoner (NPR), un cadre sans enseignant permettant aux Grands Modèles de Langage (LLM) de développer par eux-mêmes de véritables capacités de raisonnement parallèle. NPR transforme le modèle d'une émulation séquentielle vers une cognition parallèle native grâce à trois innovations majeures : 1) un paradigme d'entraînement progressif auto-distillé qui passe d'une découverte de format « cold-start » à des contraintes topologiques strictes sans supervision externe ; 2) un nouvel algorithme d'Optimisation de Politique Parallèle-Aware (PAPO) qui optimise les politiques de branchement directement dans le graphe d'exécution, permettant au modèle d'apprendre la décomposition adaptive par essais et erreurs ; et 3) un Moteur NPR robuste qui restructure la gestion de la mémoire et le contrôle de flux de SGLang pour permettre un entraînement RL parallèle stable et à grande échelle. Sur huit benchmarks de raisonnement, NPR entraîné sur Qwen3-4B obtient des gains de performance allant jusqu'à 24,5 % et des accélérations d'inférence allant jusqu'à 4,6x. Contrairement aux lignes de base antérieures qui reviennent souvent à un décodage autorégressif, NPR démontre une exécution parallèle authentique à 100 %, établissant une nouvelle norme pour un raisonnement agentique auto-évolutif, efficace et scalable.
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.