ChatPaper.aiChatPaper

Multiverso: Tus Modelos de Lenguaje Deciden en Secreto Cómo Paralelizar y Fusionar la Generación

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

June 11, 2025
Autores: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen
cs.AI

Resumen

Los Modelos de Lenguaje Autoregresivos a Gran Escala (AR-LLMs, por sus siglas en inglés) frecuentemente exhiben paralelismo implícito en la generación secuencial. Inspirados por esto, presentamos Multiverse, un nuevo modelo generativo que permite la generación nativamente paralela. Multiverse internaliza un paradigma MapReduce, generando automáticamente a través de tres etapas: (i) una etapa Map para la descomposición adaptativa de tareas, (ii) una etapa Process para la ejecución paralela de subtareas, y (iii) una etapa Reduce para la síntesis sin pérdida de resultados. A continuación, construimos un modelo de razonamiento Multiverse del mundo real con un co-diseño de datos, algoritmo y sistema, permitiendo una transferencia rápida y fluida desde los AR-LLMs más avanzados. Partiendo de cadenas de razonamiento secuenciales, creamos Multiverse 1K convirtiéndolas en datos de entrenamiento estructurados utilizando una canalización automatizada asistida por LLM, evitando costosas anotaciones humanas. Algorítmicamente, diseñamos Multiverse Attention para separar pasos de razonamiento paralelos mientras mantenemos la compatibilidad con la atención causal para un entrenamiento eficiente. Sistemáticamente, implementamos Multiverse Engine para permitir inferencia paralela. Cuenta con un planificador dedicado que cambia dinámicamente entre generación secuencial y paralela, activado directamente por el modelo. Después de un ajuste fino de 3 horas con 1K ejemplos, nuestro Multiverse-32B se posiciona como el único modelo no-AR de código abierto que logra un rendimiento comparable con los principales AR-LLMs de la misma escala, evidenciado por puntajes AIME24 y 25 de 54% y 46%, respectivamente. Además, nuestros experimentos de control de presupuesto muestran que Multiverse-32B exhibe una escalabilidad superior, superando a los AR-LLMs en un 1.87% en promedio utilizando la misma longitud de contexto. Tal escalabilidad conduce a una ganancia práctica de eficiencia, logrando hasta 2x de aceleración en diferentes tamaños de lote. Hemos liberado todo el ecosistema Multiverse, incluyendo datos, pesos del modelo, motor, herramientas de soporte, así como indicaciones completas de curación de datos y recetas detalladas de entrenamiento y evaluación.
English
Autoregressive Large Language Models (AR-LLMs) frequently exhibit implicit parallelism in sequential generation. Inspired by this, we introduce Multiverse, a new generative model that enables natively parallel generation. Multiverse internalizes a MapReduce paradigm, generating automatically through three stages: (i) a Map stage for adaptive task decomposition, (ii) a Process stage for parallel subtask execution, and (iii) a Reduce stage for lossless result synthesis. Next, we build a real-world Multiverse reasoning model with co-design of data, algorithm, and system, enabling rapid and seamless transfer from frontier AR-LLMs. Starting from sequential reasoning chains, we create Multiverse 1K by converting them into structured training data using an automated LLM-assisted pipeline, avoiding costly human annotations. Algorithmically, we design Multiverse Attention to separate parallel reasoning steps while keeping compatibility with causal attention for efficient training. Systematically, we implement Multiverse Engine to enable parallel inference. It features a dedicated scheduler that dynamically switches between sequential and parallel generation, triggered directly by the model. After a 3-hour fine-tuning with 1K examples, our Multiverse-32B stands as the only open-sourced non-AR model achieving performance on par with leading AR-LLMs of the same scale, evidenced by AIME24 & 25 scores of 54% and 46%, respectively. Moreover, our budget control experiments show that Multiverse-32B exhibits superior scaling, outperforming AR-LLMs by 1.87% on average using the same context length. Such scaling further leads to practical efficiency gain, achieving up to 2x speedup across varying batch sizes. We have open-sourced the entire Multiverse ecosystem, including data, model weights, engine, supporting tools, as well as complete data curation prompts and detailed training and evaluation recipes.
PDF432June 12, 2025