Multiverse: I tuoi modelli linguistici decidono segretamente come parallelizzare e unire la generazione

Abstract

I modelli linguistici autoregressivi di grandi dimensioni (AR-LLMs) mostrano frequentemente un parallelismo implicito nella generazione sequenziale. Ispirati da ciò, introduciamo Multiverse, un nuovo modello generativo che abilita una generazione nativamente parallela. Multiverse internalizza un paradigma MapReduce, generando automaticamente attraverso tre fasi: (i) una fase Map per la scomposizione adattiva dei compiti, (ii) una fase Process per l'esecuzione parallela dei sottocompiti e (iii) una fase Reduce per la sintesi senza perdita dei risultati. Successivamente, costruiamo un modello di ragionamento Multiverse nel mondo reale con una co-progettazione di dati, algoritmo e sistema, consentendo un trasferimento rapido e senza soluzione di continuità dai migliori AR-LLMs. Partendo da catene di ragionamento sequenziali, creiamo Multiverse 1K convertendole in dati di training strutturati utilizzando una pipeline automatizzata assistita da LLM, evitando costose annotazioni umane. Algoritmicamente, progettiamo Multiverse Attention per separare i passaggi di ragionamento paralleli mantenendo la compatibilità con l'attenzione causale per un training efficiente. Sistematicamente, implementiamo Multiverse Engine per abilitare l'inferenza parallela. Esso include uno scheduler dedicato che passa dinamicamente tra generazione sequenziale e parallela, attivato direttamente dal modello. Dopo un fine-tuning di 3 ore con 1K esempi, il nostro Multiverse-32B si posiziona come l'unico modello non-AR open-source che raggiunge prestazioni pari ai migliori AR-LLMs della stessa scala, come evidenziato dai punteggi AIME24 e 25 rispettivamente del 54% e 46%. Inoltre, i nostri esperimenti di controllo del budget mostrano che Multiverse-32B presenta un ridimensionamento superiore, superando gli AR-LLMs in media dell'1,87% utilizzando la stessa lunghezza di contesto. Tale ridimensionamento porta ulteriormente a un guadagno pratico di efficienza, raggiungendo fino a 2x di accelerazione su diverse dimensioni di batch. Abbiamo reso open-source l'intero ecosistema Multiverse, inclusi dati, pesi del modello, engine, strumenti di supporto, nonché prompt completi per la cura dei dati e ricette dettagliate per il training e la valutazione.

English

Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit parallelism in sequential generation. Inspired by this, we introduce Multiverse, a new generative model that enables natively parallel generation. Multiverse internalizes a MapReduce paradigm, generating automatically through three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process stage for parallel subtask execution, and (iii) a Reduce stage for lossless result synthesis. Next, we build a real-world Multiverse reasoning model with co-design of data, algorithm, and system, enabling rapid and seamless transfer from frontier AR-LLMs. Starting from sequential reasoning chains, we create Multiverse 1K by converting them into structured training data using an automated LLM-assisted pipeline, avoiding costly human annotations. Algorithmically, we design Multiverse Attention to separate parallel reasoning steps while keeping compatibility with causal attention for efficient training. Systematically, we implement Multiverse Engine to enable parallel inference. It features a dedicated scheduler that dynamically switches between sequential and parallel generation, triggered directly by the model. After a 3-hour fine-tuning with 1K examples, our Multiverse-32B stands as the only open-sourced non-AR model achieving performance on par with leading AR-LLMs of the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively. Moreover, our budget control experiments show that Multiverse-32B exhibits superior scaling, outperforming AR-LLMs by 1.87% on average using the same context length. Such scaling further leads to practical efficiency gain, achieving up to 2x speedup across varying batch sizes. We have open-sourced the entire Multiverse ecosystem, including data, model weights, engine, supporting tools, as well as complete data curation prompts and detailed training and evaluation recipes.

Multiverse: I tuoi modelli linguistici decidono segretamente come parallelizzare e unire la generazione

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

Abstract

Support