ChatPaper.aiChatPaper

De ontwerpruimte van driemodale gemaskeerde diffusiemodellen

The Design Space of Tri-Modal Masked Diffusion Models

February 25, 2026
Auteurs: Louis Bethune, Victor Turrisi, Bruno Kacper Mlodozeniec, Pau Rodriguez Lopez, Lokesh Boominathan, Nikhil Bhendawade, Amitis Shidani, Joris Pelemans, Theo X. Olausson, Devon Hjelm, Paul Dixon, Joao Monteiro, Pierre Ablin, Vishnu Banna, Arno Blaas, Nick Henderson, Kari Noriy, Dan Busbridge, Josh Susskind, Marco Cuturi, Irina Belousova, Luca Zappella, Russ Webb, Jason Ramapuram
cs.AI

Samenvatting

Discrete diffusiemodellen zijn naar voren gekomen als sterke alternatieven voor autoregressieve taalmodelle, waarbij recent onderzoek een basis unimodaal model initialiseert en fine-tunt voor bimodale generatie. In tegenstelling tot eerdere benaderingen introduceren we het eerste driemodale gemaskeerde diffusiemodel dat vanaf nul is voorgetraind op tekst-, beeld-tekst- en audio-tekstgegevens. We analyseren systematisch multimodale schaalwetten, mengverhoudingen van modaliteiten, ruisschema's en batchgrootte-effecten, en we bieden geoptimaliseerde standaardinstellingen voor inferentie-steekproeven. Onze batchgrootte-analyse levert een nieuwe herparameterisatie op basis van stochastische differentiaalvergelijkingen (SDE's) op, die de noodzaak wegneemt om de optimale batchgrootte af te stemmen zoals gerapporteerd in recent werk. Deze herparameterisatie ontkoppelt de fysieke batchgrootte, vaak gekozen op basis van rekenbeperkingen (GPU-saturatie, FLOP-efficiëntie, wandkloktijd), van de logische batchgrootte, gekozen om de gradiëntvariantie tijdens stochastische optimalisatie in evenwicht te brengen. Ten slotte trainen we een voorlopig driemodaal model met 3B parameters voor op 6,4T tokens, waarbij we de mogelijkheden van een uniform ontwerp demonstreren en sterke resultaten behalen bij tekstgeneratie, tekst-naar-beeld taken en tekst-naar-spraak taken. Ons werk vertegenwoordigt de grootste systematische open studie van multimodale discrete diffusiemodellen die tot nu toe is uitgevoerd, en biedt inzichten in schaalgedrag over meerdere modaliteiten.
English
Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.
PDF31March 17, 2026