O Espaço de Projeto dos Modelos de Difusão Mascarada Trimodais
The Design Space of Tri-Modal Masked Diffusion Models
February 25, 2026
Autores: Louis Bethune, Victor Turrisi, Bruno Kacper Mlodozeniec, Pau Rodriguez Lopez, Lokesh Boominathan, Nikhil Bhendawade, Amitis Shidani, Joris Pelemans, Theo X. Olausson, Devon Hjelm, Paul Dixon, Joao Monteiro, Pierre Ablin, Vishnu Banna, Arno Blaas, Nick Henderson, Kari Noriy, Dan Busbridge, Josh Susskind, Marco Cuturi, Irina Belousova, Luca Zappella, Russ Webb, Jason Ramapuram
cs.AI
Resumo
Os modelos de difusão discreta emergiram como fortes alternativas aos modelos de linguagem autoregressivos, com trabalhos recentes inicializando e ajustando um modelo unimodal base para geração bimodal. Divergindo de abordagens anteriores, introduzimos o primeiro modelo de difusão mascarada trimodal pré-treinado desde o início com dados de texto, texto-imagem e texto-áudio. Analisamos sistematicamente as leis de escalonamento multimodal, proporções de mistura de modalidades, cronogramas de ruído e efeitos de tamanho de lote, e fornecemos padrões otimizados de amostragem inferencial. Nossa análise do tamanho do lote produz uma nova reparametrização baseada em equações diferenciais estocásticas (SDE) que elimina a necessidade de ajustar o tamanho ideal do lote, conforme relatado em trabalhos recentes. Essa reparametrização desacopla o tamanho físico do lote, frequentemente escolhido com base em restrições computacionais (saturação de GPU, eficiência de FLOP, tempo de execução), do tamanho lógico do lote, escolhido para equilibrar a variância do gradiente durante a otimização estocástica. Por fim, pré-treinamos um modelo trimodal preliminar de 3 bilhões de parâmetros em 6,4 trilhões de tokens, demonstrando as capacidades de um design unificado e alcançando resultados sólidos em geração de texto, tarefas de texto para imagem e tarefas de texto para fala. Nosso trabalho representa o maior estudo aberto sistemático de modelos de difusão discreta multimodal já conduzido, fornecendo insights sobre comportamentos de escalonamento em múltiplas modalidades.
English
Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.