ChatPaper.aiChatPaper

Raciocinador Paralelo Nativo: Raciocínio em Paralelismo via Aprendizado por Reforço Auto-Distilado

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

December 8, 2025
Autores: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI

Resumo

Apresentamos o Native Parallel Reasoner (NPR), uma estrutura *teacher-free* que permite aos Grandes Modelos de Linguagem (LLMs) auto-evoluir capacidades genuínas de raciocínio paralelo. O NPR transforma o modelo de uma emulação sequencial para uma cognição paralela nativa através de três inovações principais: 1) um paradigma de treinamento progressivo auto-destilado que transita de uma descoberta de formato "cold-start" para restrições topológicas rigorosas sem supervisão externa; 2) um novo algoritmo de Otimização de Política com Consciência Paralela (PAPO) que otimiza políticas de ramificação diretamente dentro do grafo de execução, permitindo que o modelo aprenda decomposição adaptativa através de tentativa e erro; e 3) um Motor NPR robusto que refatora o gerenciamento de memória e o controle de fluxo do SGLang para permitir um treinamento de RL paralelo estável e em larga escala. Em oito benchmarks de raciocínio, o NPR treinado no Qwen3-4B alcança ganhos de desempenho de até 24,5% e acelerações de inferência de até 4,6x. Diferente de linhas de base anteriores que frequentemente recaem na decodagem autoregressiva, o NPR demonstra 100% de execução paralela genuína, estabelecendo um novo padrão para o raciocínio agentivo auto-evolutivo, eficiente e escalável.
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.
PDF784February 7, 2026