El Espacio de Diseño de Modelos de Difusión Enmascarada Trimodal

Resumen

Los modelos de difusión discretos han surgido como alternativas sólidas a los modelos de lenguaje autorregresivos, con trabajos recientes que inicializan y ajustan un modelo base unimodal para la generación bimodal. A diferencia de enfoques anteriores, presentamos el primer modelo de difusión enmascarado trimodal preentrenado desde cero con datos de texto, imagen-texto y audio-texto. Analizamos sistemáticamente las leyes de escalado multimodal, las proporciones de mezcla de modalidades, los programas de ruido y los efectos del tamaño del lote, y proporcionamos valores predeterminados optimizados para el muestreo en inferencia. Nuestro análisis del tamaño del lote produce una nueva reparametrización basada en ecuaciones diferenciales estocásticas (SDE) que elimina la necesidad de ajustar el tamaño óptimo del lote, como se informa en trabajos recientes. Esta reparametrización desacopla el tamaño físico del lote, a menudo elegido en función de restricciones computacionales (saturación de GPU, eficiencia de FLOPs, tiempo de ejecución), del tamaño lógico del lote, elegido para equilibrar la varianza del gradiente durante la optimización estocástica. Finalmente, preentrenamos un modelo trimodal preliminar de 3B de parámetros con 6.4T de tokens, demostrando las capacidades de un diseño unificado y logrando resultados sólidos en generación de texto, tareas de texto a imagen y tareas de texto a voz. Nuestro trabajo representa el estudio abierto sistemático a mayor escala de modelos de difusión discreta multimodal realizado hasta la fecha, proporcionando información sobre los comportamientos de escalado en múltiples modalidades.

English

Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.

El Espacio de Diseño de Modelos de Difusión Enmascarada Trimodal

The Design Space of Tri-Modal Masked Diffusion Models

Resumen

Support