マルチバース:あなたの言語モデルは生成の並列化と統合を密かに決定する
Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation
June 11, 2025
著者: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen
cs.AI
要旨
自己回帰型大規模言語モデル(AR-LLM)は、逐次生成においてしばしば暗黙の並列性を示す。これに着想を得て、我々はネイティブな並列生成を可能にする新しい生成モデル「Multiverse」を提案する。MultiverseはMapReduceパラダイムを内部化し、3つの段階を通じて自動的に生成を行う:(i) 適応的なタスク分解を行うMap段階、(ii) 並列サブタスク実行を行うProcess段階、(iii) ロスレスな結果合成を行うReduce段階。次に、データ、アルゴリズム、システムの協調設計により、現実世界のMultiverse推論モデルを構築し、最先端のAR-LLMからの迅速かつシームレスな移行を可能にする。逐次推論チェーンを出発点として、自動化されたLLM支援パイプラインを用いて構造化トレーニングデータに変換し、高コストな人間のアノテーションを回避してMultiverse 1Kを作成する。アルゴリズム的には、並列推論ステップを分離しつつ、効率的な訓練のための因果的注意機構との互換性を保つMultiverse Attentionを設計する。システム的には、並列推論を可能にするMultiverse Engineを実装する。これには、モデルによって直接トリガーされる専用スケジューラが含まれ、逐次生成と並列生成を動的に切り替える。1,000例を用いた3時間のファインチューニング後、我々のMultiverse-32Bは、同じスケールの主要なAR-LLMと同等の性能を達成する唯一のオープンソース非ARモデルとして立ち、AIME24および25スコアでそれぞれ54%および46%を記録した。さらに、予算管理実験では、Multiverse-32Bが優れたスケーリングを示し、同じコンテキスト長を使用してAR-LLMを平均1.87%上回ることが確認された。このスケーリングは実用的な効率向上にもつながり、さまざまなバッチサイズで最大2倍の高速化を達成する。我々は、データ、モデル重み、エンジン、支援ツール、完全なデータキュレーションプロンプト、詳細な訓練および評価レシピを含むMultiverseエコシステム全体をオープンソースとして公開している。
English
Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit
parallelism in sequential generation. Inspired by this, we introduce
Multiverse, a new generative model that enables natively parallel generation.
Multiverse internalizes a MapReduce paradigm, generating automatically through
three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process
stage for parallel subtask execution, and (iii) a Reduce stage for lossless
result synthesis. Next, we build a real-world Multiverse reasoning model with
co-design of data, algorithm, and system, enabling rapid and seamless transfer
from frontier AR-LLMs. Starting from sequential reasoning chains, we create
Multiverse 1K by converting them into structured training data using an
automated LLM-assisted pipeline, avoiding costly human annotations.
Algorithmically, we design Multiverse Attention to separate parallel reasoning
steps while keeping compatibility with causal attention for efficient training.
Systematically, we implement Multiverse Engine to enable parallel inference. It
features a dedicated scheduler that dynamically switches between sequential and
parallel generation, triggered directly by the model. After a 3-hour
fine-tuning with 1K examples, our Multiverse-32B stands as the only
open-sourced non-AR model achieving performance on par with leading AR-LLMs of
the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively.
Moreover, our budget control experiments show that Multiverse-32B exhibits
superior scaling, outperforming AR-LLMs by 1.87% on average using the same
context length. Such scaling further leads to practical efficiency gain,
achieving up to 2x speedup across varying batch sizes. We have open-sourced the
entire Multiverse ecosystem, including data, model weights, engine, supporting
tools, as well as complete data curation prompts and detailed training and
evaluation recipes.