Multiverse: I tuoi modelli linguistici decidono segretamente come parallelizzare e unire la generazione
Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation
June 11, 2025
Autori: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen
cs.AI
Abstract
I modelli linguistici autoregressivi di grandi dimensioni (AR-LLMs) mostrano frequentemente un parallelismo implicito nella generazione sequenziale. Ispirati da ciò, introduciamo Multiverse, un nuovo modello generativo che abilita una generazione nativamente parallela. Multiverse internalizza un paradigma MapReduce, generando automaticamente attraverso tre fasi: (i) una fase Map per la scomposizione adattiva dei compiti, (ii) una fase Process per l'esecuzione parallela dei sottocompiti e (iii) una fase Reduce per la sintesi senza perdita dei risultati. Successivamente, costruiamo un modello di ragionamento Multiverse nel mondo reale con una co-progettazione di dati, algoritmo e sistema, consentendo un trasferimento rapido e senza soluzione di continuità dai migliori AR-LLMs. Partendo da catene di ragionamento sequenziali, creiamo Multiverse 1K convertendole in dati di training strutturati utilizzando una pipeline automatizzata assistita da LLM, evitando costose annotazioni umane. Algoritmicamente, progettiamo Multiverse Attention per separare i passaggi di ragionamento paralleli mantenendo la compatibilità con l'attenzione causale per un training efficiente. Sistematicamente, implementiamo Multiverse Engine per abilitare l'inferenza parallela. Esso include uno scheduler dedicato che passa dinamicamente tra generazione sequenziale e parallela, attivato direttamente dal modello. Dopo un fine-tuning di 3 ore con 1K esempi, il nostro Multiverse-32B si posiziona come l'unico modello non-AR open-source che raggiunge prestazioni pari ai migliori AR-LLMs della stessa scala, come evidenziato dai punteggi AIME24 e 25 rispettivamente del 54% e 46%. Inoltre, i nostri esperimenti di controllo del budget mostrano che Multiverse-32B presenta un ridimensionamento superiore, superando gli AR-LLMs in media dell'1,87% utilizzando la stessa lunghezza di contesto. Tale ridimensionamento porta ulteriormente a un guadagno pratico di efficienza, raggiungendo fino a 2x di accelerazione su diverse dimensioni di batch. Abbiamo reso open-source l'intero ecosistema Multiverse, inclusi dati, pesi del modello, engine, strumenti di supporto, nonché prompt completi per la cura dei dati e ricette dettagliate per il training e la valutazione.
English
Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit
parallelism in sequential generation. Inspired by this, we introduce
Multiverse, a new generative model that enables natively parallel generation.
Multiverse internalizes a MapReduce paradigm, generating automatically through
three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process
stage for parallel subtask execution, and (iii) a Reduce stage for lossless
result synthesis. Next, we build a real-world Multiverse reasoning model with
co-design of data, algorithm, and system, enabling rapid and seamless transfer
from frontier AR-LLMs. Starting from sequential reasoning chains, we create
Multiverse 1K by converting them into structured training data using an
automated LLM-assisted pipeline, avoiding costly human annotations.
Algorithmically, we design Multiverse Attention to separate parallel reasoning
steps while keeping compatibility with causal attention for efficient training.
Systematically, we implement Multiverse Engine to enable parallel inference. It
features a dedicated scheduler that dynamically switches between sequential and
parallel generation, triggered directly by the model. After a 3-hour
fine-tuning with 1K examples, our Multiverse-32B stands as the only
open-sourced non-AR model achieving performance on par with leading AR-LLMs of
the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively.
Moreover, our budget control experiments show that Multiverse-32B exhibits
superior scaling, outperforming AR-LLMs by 1.87% on average using the same
context length. Such scaling further leads to practical efficiency gain,
achieving up to 2x speedup across varying batch sizes. We have open-sourced the
entire Multiverse ecosystem, including data, model weights, engine, supporting
tools, as well as complete data curation prompts and detailed training and
evaluation recipes.