Multiverso: Seus Modelos de Linguagem Decidem Secretamente Como Paralelizar e Mesclar Geração
Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation
June 11, 2025
Autores: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen
cs.AI
Resumo
Modelos de Linguagem Grande Autoregressivos (AR-LLMs) frequentemente exibem paralelismo implícito na geração sequencial. Inspirados por isso, introduzimos o Multiverse, um novo modelo generativo que permite a geração nativamente paralela. O Multiverse internaliza um paradigma MapReduce, gerando automaticamente em três estágios: (i) um estágio Map para decomposição adaptativa de tarefas, (ii) um estágio Process para execução paralela de subtarefas, e (iii) um estágio Reduce para síntese de resultados sem perdas. Em seguida, construímos um modelo de raciocínio Multiverse do mundo real com co-design de dados, algoritmo e sistema, permitindo uma transferência rápida e contínua a partir de AR-LLMs de ponta. Partindo de cadeias de raciocínio sequenciais, criamos o Multiverse 1K convertendo-as em dados de treinamento estruturados usando um pipeline automatizado assistido por LLM, evitando anotações humanas custosas. Algoritmicamente, projetamos a Atenção Multiverse para separar etapas de raciocínio paralelas enquanto mantém compatibilidade com a atenção causal para treinamento eficiente. Sistematicamente, implementamos o Multiverse Engine para permitir inferência paralela. Ele apresenta um agendador dedicado que alterna dinamicamente entre geração sequencial e paralela, acionado diretamente pelo modelo. Após um ajuste fino de 3 horas com 1K exemplos, nosso Multiverse-32B se destaca como o único modelo não-AR de código aberto que alcança desempenho equivalente aos principais AR-LLMs da mesma escala, evidenciado pelas pontuações AIME24 e 25 de 54% e 46%, respectivamente. Além disso, nossos experimentos de controle de orçamento mostram que o Multiverse-32B exibe escalabilidade superior, superando AR-LLMs em média 1,87% usando o mesmo comprimento de contexto. Essa escalabilidade leva a ganhos práticos de eficiência, alcançando até 2x de aceleração em diferentes tamanhos de lote. Disponibilizamos todo o ecossistema Multiverse em código aberto, incluindo dados, pesos do modelo, engine, ferramentas de suporte, além de prompts completos de curadoria de dados e receitas detalhadas de treinamento e avaliação.
English
Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit
parallelism in sequential generation. Inspired by this, we introduce
Multiverse, a new generative model that enables natively parallel generation.
Multiverse internalizes a MapReduce paradigm, generating automatically through
three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process
stage for parallel subtask execution, and (iii) a Reduce stage for lossless
result synthesis. Next, we build a real-world Multiverse reasoning model with
co-design of data, algorithm, and system, enabling rapid and seamless transfer
from frontier AR-LLMs. Starting from sequential reasoning chains, we create
Multiverse 1K by converting them into structured training data using an
automated LLM-assisted pipeline, avoiding costly human annotations.
Algorithmically, we design Multiverse Attention to separate parallel reasoning
steps while keeping compatibility with causal attention for efficient training.
Systematically, we implement Multiverse Engine to enable parallel inference. It
features a dedicated scheduler that dynamically switches between sequential and
parallel generation, triggered directly by the model. After a 3-hour
fine-tuning with 1K examples, our Multiverse-32B stands as the only
open-sourced non-AR model achieving performance on par with leading AR-LLMs of
the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively.
Moreover, our budget control experiments show that Multiverse-32B exhibits
superior scaling, outperforming AR-LLMs by 1.87% on average using the same
context length. Such scaling further leads to practical efficiency gain,
achieving up to 2x speedup across varying batch sizes. We have open-sourced the
entire Multiverse ecosystem, including data, model weights, engine, supporting
tools, as well as complete data curation prompts and detailed training and
evaluation recipes.