Razonador Nativo Paralelo: Razonamiento en Paralelismo mediante Aprendizaje por Refuerzo Auto-Distilado
Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
December 8, 2025
Autores: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI
Resumen
Introducimos Native Parallel Reasoner (NPR), un marco de trabajo sin supervisión docente que permite a los Modelos de Lenguaje Grandes (LLMs) auto-evolucionar capacidades genuinas de razonamiento paralelo. NPR transforma el modelo de una emulación secuencial a una cognición paralela nativa mediante tres innovaciones clave: 1) un paradigma de entrenamiento progresivo auto-destilado que transita desde el descubrimiento de formato en "arranque en frío" hasta restricciones topológicas estrictas sin supervisión externa; 2) un novedoso algoritmo de Optimización de Políticas con Conciencia Paralela (PAPO) que optimiza las políticas de ramificación directamente dentro del grafo de ejecución, permitiendo al modelo aprender descomposición adaptativa mediante prueba y error; y 3) un Motor NPR robusto que refactoriza la gestión de memoria y el control de flujo de SGLang para permitir un entrenamiento estable de RL paralelo a gran escala. En ocho benchmarks de razonamiento, NPR entrenado en Qwen3-4B logra mejoras de rendimiento de hasta 24.5% y aceleraciones en inferencia de hasta 4.6x. A diferencia de líneas base anteriores que frecuentemente recurren a decodificación autoregresiva, NPR demuestra un 100% de ejecución paralela genuina, estableciendo un nuevo estándar para el razonamiento agente eficiente, escalable y auto-evolutivo.
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.