Multiverso: Seus Modelos de Linguagem Decidem Secretamente Como Paralelizar e Mesclar Geração

Resumo

Modelos de Linguagem Grande Autoregressivos (AR-LLMs) frequentemente exibem paralelismo implícito na geração sequencial. Inspirados por isso, introduzimos o Multiverse, um novo modelo generativo que permite a geração nativamente paralela. O Multiverse internaliza um paradigma MapReduce, gerando automaticamente em três estágios: (i) um estágio Map para decomposição adaptativa de tarefas, (ii) um estágio Process para execução paralela de subtarefas, e (iii) um estágio Reduce para síntese de resultados sem perdas. Em seguida, construímos um modelo de raciocínio Multiverse do mundo real com co-design de dados, algoritmo e sistema, permitindo uma transferência rápida e contínua a partir de AR-LLMs de ponta. Partindo de cadeias de raciocínio sequenciais, criamos o Multiverse 1K convertendo-as em dados de treinamento estruturados usando um pipeline automatizado assistido por LLM, evitando anotações humanas custosas. Algoritmicamente, projetamos a Atenção Multiverse para separar etapas de raciocínio paralelas enquanto mantém compatibilidade com a atenção causal para treinamento eficiente. Sistematicamente, implementamos o Multiverse Engine para permitir inferência paralela. Ele apresenta um agendador dedicado que alterna dinamicamente entre geração sequencial e paralela, acionado diretamente pelo modelo. Após um ajuste fino de 3 horas com 1K exemplos, nosso Multiverse-32B se destaca como o único modelo não-AR de código aberto que alcança desempenho equivalente aos principais AR-LLMs da mesma escala, evidenciado pelas pontuações AIME24 e 25 de 54% e 46%, respectivamente. Além disso, nossos experimentos de controle de orçamento mostram que o Multiverse-32B exibe escalabilidade superior, superando AR-LLMs em média 1,87% usando o mesmo comprimento de contexto. Essa escalabilidade leva a ganhos práticos de eficiência, alcançando até 2x de aceleração em diferentes tamanhos de lote. Disponibilizamos todo o ecossistema Multiverse em código aberto, incluindo dados, pesos do modelo, engine, ferramentas de suporte, além de prompts completos de curadoria de dados e receitas detalhadas de treinamento e avaliação.

English

Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit parallelism in sequential generation. Inspired by this, we introduce Multiverse, a new generative model that enables natively parallel generation. Multiverse internalizes a MapReduce paradigm, generating automatically through three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process stage for parallel subtask execution, and (iii) a Reduce stage for lossless result synthesis. Next, we build a real-world Multiverse reasoning model with co-design of data, algorithm, and system, enabling rapid and seamless transfer from frontier AR-LLMs. Starting from sequential reasoning chains, we create Multiverse 1K by converting them into structured training data using an automated LLM-assisted pipeline, avoiding costly human annotations. Algorithmically, we design Multiverse Attention to separate parallel reasoning steps while keeping compatibility with causal attention for efficient training. Systematically, we implement Multiverse Engine to enable parallel inference. It features a dedicated scheduler that dynamically switches between sequential and parallel generation, triggered directly by the model. After a 3-hour fine-tuning with 1K examples, our Multiverse-32B stands as the only open-sourced non-AR model achieving performance on par with leading AR-LLMs of the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively. Moreover, our budget control experiments show that Multiverse-32B exhibits superior scaling, outperforming AR-LLMs by 1.87% on average using the same context length. Such scaling further leads to practical efficiency gain, achieving up to 2x speedup across varying batch sizes. We have open-sourced the entire Multiverse ecosystem, including data, model weights, engine, supporting tools, as well as complete data curation prompts and detailed training and evaluation recipes.

Multiverso: Seus Modelos de Linguagem Decidem Secretamente Como Paralelizar e Mesclar Geração

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

Resumo

Support