ChatPaper.aiChatPaper

Multiversum: Uw Taalmodellen Besluiten Stiekem Hoe Ze Generatie Paralleliseren en Samenvoegen

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

June 11, 2025
Auteurs: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen
cs.AI

Samenvatting

Autoregressieve Large Language Models (AR-LLMs) vertonen vaak impliciete paralleliteit in sequentiële generatie. Geïnspireerd door dit fenomeen introduceren we Multiverse, een nieuw generatief model dat native parallelle generatie mogelijk maakt. Multiverse internaliseert een MapReduce-paradigma en genereert automatisch in drie fasen: (i) een Map-fase voor adaptieve taakdecompositie, (ii) een Process-fase voor parallelle uitvoering van subtaken, en (iii) een Reduce-fase voor verliesvrije resultaat-synthese. Vervolgens bouwen we een real-world Multiverse-redeneermodel met een co-design van data, algoritme en systeem, waardoor een snelle en naadloze overgang van toonaangevende AR-LLMs mogelijk wordt. Uitgaande van sequentiële redeneerketens creëren we Multiverse 1K door deze om te zetten in gestructureerde trainingsdata met behulp van een geautomatiseerde LLM-ondersteunde pijplijn, waardoor kostbare menselijke annotaties worden vermeden. Algoritmisch ontwerpen we Multiverse Attention om parallelle redeneerstappen te scheiden, terwijl compatibiliteit met causale aandacht behouden blijft voor efficiënte training. Systematisch implementeren we Multiverse Engine om parallelle inferentie mogelijk te maken. Deze beschikt over een toegewijde scheduler die dynamisch schakelt tussen sequentiële en parallelle generatie, direct geactiveerd door het model. Na een fine-tuning van 3 uur met 1K voorbeelden staat onze Multiverse-32B als het enige open-source niet-AR-model dat prestaties levert die vergelijkbaar zijn met toonaangevende AR-LLMs van dezelfde schaal, wat wordt aangetoond door AIME24 & 25-scores van respectievelijk 54% en 46%. Bovendien tonen onze budgetcontrole-experimenten aan dat Multiverse-32B superieure schaalbaarheid vertoont, met een gemiddelde outperformance van 1,87% ten opzichte van AR-LLMs bij dezelfde contextlengte. Deze schaalbaarheid leidt verder tot praktische efficiëntiewinst, met een versnelling tot 2x over verschillende batchgroottes. We hebben het volledige Multiverse-ecosysteem open-source gemaakt, inclusief data, modelgewichten, engine, ondersteunende tools, evenals complete data-curatieprompts en gedetailleerde trainings- en evaluatierecepten.
English
Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit parallelism in sequential generation. Inspired by this, we introduce Multiverse, a new generative model that enables natively parallel generation. Multiverse internalizes a MapReduce paradigm, generating automatically through three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process stage for parallel subtask execution, and (iii) a Reduce stage for lossless result synthesis. Next, we build a real-world Multiverse reasoning model with co-design of data, algorithm, and system, enabling rapid and seamless transfer from frontier AR-LLMs. Starting from sequential reasoning chains, we create Multiverse 1K by converting them into structured training data using an automated LLM-assisted pipeline, avoiding costly human annotations. Algorithmically, we design Multiverse Attention to separate parallel reasoning steps while keeping compatibility with causal attention for efficient training. Systematically, we implement Multiverse Engine to enable parallel inference. It features a dedicated scheduler that dynamically switches between sequential and parallel generation, triggered directly by the model. After a 3-hour fine-tuning with 1K examples, our Multiverse-32B stands as the only open-sourced non-AR model achieving performance on par with leading AR-LLMs of the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively. Moreover, our budget control experiments show that Multiverse-32B exhibits superior scaling, outperforming AR-LLMs by 1.87% on average using the same context length. Such scaling further leads to practical efficiency gain, achieving up to 2x speedup across varying batch sizes. We have open-sourced the entire Multiverse ecosystem, including data, model weights, engine, supporting tools, as well as complete data curation prompts and detailed training and evaluation recipes.
PDF452June 12, 2025