멀티버스: 당신의 언어 모델은 비밀리에 병렬화 및 생성 병합 방식을 결정한다
Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation
June 11, 2025
저자: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen
cs.AI
초록
자기회귀적 대형 언어 모델(Autoregressive Large Language Models, AR-LLMs)은 순차적 생성 과정에서 빈번히 암묵적 병렬성을 보인다. 이를 영감으로 삼아, 본 연구에서는 기본적으로 병렬 생성을 가능하게 하는 새로운 생성 모델인 Multiverse를 소개한다. Multiverse는 MapReduce 패러다임을 내재화하여, (i) 적응형 작업 분해를 위한 Map 단계, (ii) 병렬 서브태스크 실행을 위한 Process 단계, (iii) 무손실 결과 합성을 위한 Reduce 단계로 구성된 세 단계를 통해 자동으로 생성한다. 다음으로, 데이터, 알고리즘, 시스템의 공동 설계를 통해 실제 세계의 Multiverse 추론 모델을 구축하여, 최첨단 AR-LLMs로부터의 신속하고 원활한 전이를 가능하게 한다. 순차적 추론 체인에서 출발하여, 비용이 많이 드는 인간 주석을 피하기 위해 자동화된 LLM 지원 파이프라인을 사용하여 이를 구조화된 훈련 데이터로 변환함으로써 Multiverse 1K를 생성한다. 알고리즘적으로는, 효율적인 훈련을 위해 인과적 주의(causal attention)와의 호환성을 유지하면서 병렬 추론 단계를 분리하는 Multiverse Attention을 설계한다. 시스템적으로는, 병렬 추론을 가능하게 하는 Multiverse Engine을 구현한다. 이 엔진은 모델에 의해 직접 트리거되어 순차적 생성과 병렬 생성 간의 동적 전환을 가능하게 하는 전용 스케줄러를 특징으로 한다. 1K 예제를 사용하여 3시간 동안 미세 조정(fine-tuning)을 거친 후, Multiverse-32B는 동일 규모의 선도적인 AR-LLMs와 동등한 성능을 달성한 유일한 오픈소스 비-AR 모델로 자리매김하였으며, 이는 각각 54%와 46%의 AIME24 & 25 점수로 입증되었다. 더욱이, 예산 제어 실험에서 Multiverse-32B는 우수한 확장성을 보여, 동일한 컨텍스트 길이를 사용하여 AR-LLMs를 평균 1.87% 앞섰다. 이러한 확장성은 실질적인 효율성 향상으로 이어져, 다양한 배치 크기에서 최대 2배의 속도 향상을 달성하였다. 본 연구는 데이터, 모델 가중치, 엔진, 지원 도구뿐만 아니라 완전한 데이터 큐레이션 프롬프트와 상세한 훈련 및 평가 레시피를 포함한 전체 Multiverse 생태계를 오픈소스로 공개하였다.
English
Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit
parallelism in sequential generation. Inspired by this, we introduce
Multiverse, a new generative model that enables natively parallel generation.
Multiverse internalizes a MapReduce paradigm, generating automatically through
three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process
stage for parallel subtask execution, and (iii) a Reduce stage for lossless
result synthesis. Next, we build a real-world Multiverse reasoning model with
co-design of data, algorithm, and system, enabling rapid and seamless transfer
from frontier AR-LLMs. Starting from sequential reasoning chains, we create
Multiverse 1K by converting them into structured training data using an
automated LLM-assisted pipeline, avoiding costly human annotations.
Algorithmically, we design Multiverse Attention to separate parallel reasoning
steps while keeping compatibility with causal attention for efficient training.
Systematically, we implement Multiverse Engine to enable parallel inference. It
features a dedicated scheduler that dynamically switches between sequential and
parallel generation, triggered directly by the model. After a 3-hour
fine-tuning with 1K examples, our Multiverse-32B stands as the only
open-sourced non-AR model achieving performance on par with leading AR-LLMs of
the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively.
Moreover, our budget control experiments show that Multiverse-32B exhibits
superior scaling, outperforming AR-LLMs by 1.87% on average using the same
context length. Such scaling further leads to practical efficiency gain,
achieving up to 2x speedup across varying batch sizes. We have open-sourced the
entire Multiverse ecosystem, including data, model weights, engine, supporting
tools, as well as complete data curation prompts and detailed training and
evaluation recipes.