ChatPaper.aiChatPaper

네이티브 병렬 추론기: 자기 지식 증류 강화 학습을 통한 병렬 추론

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

December 8, 2025
저자: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng
cs.AI

초록

네이티브 병렬 추론기(NPR)는 대규모 언어 모델(LLM)이 진정한 병렬 추론 능력을 자가 진화할 수 있도록 하는 교사 없는 프레임워크입니다. NPR은 세 가지 핵심 혁신을 통해 모델을 순차적 모방에서 네이티브 병렬 인식으로 전환합니다: 1) 외부 감독 없이 "콜드 스타트" 형식 발견부터 엄격한 토폴로지 제약 조건으로 전환하는 자기 증류적 점진적 훈련 패러다임, 2) 실행 그래프 내에서 직접 분기 정책을 최적화하여 모델이 시행착오를 통해 적응적 분해를 학습할 수 있도록 하는 새로운 병렬 인식 정책 최적화(PAPO) 알고리즘, 3) SGLang의 메모리 관리 및 흐름 제어를 재구성하여 안정적인 대규모 병렬 강화 학습을 가능하게 하는 강력한 NPR 엔진. 8개의 추론 벤치마크에서 Qwen3-4B로 훈련된 NPR은 최대 24.5%의 성능 향상과 최대 4.6배의 추론 속도 향상을 달성했습니다. 자동회귀 디코딩으로 후퇴하는 기존 베이스라인과 달리, NPR은 100% 진정한 병렬 실행을 입증하며 자기 진화적이고 효율적이며 확장 가능한 에이전트 추론의 새로운 표준을 수립했습니다.
English
We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.
PDF582December 10, 2025