Der Gestaltungsraum tri-modaler maskierter Diffusionsmodelle

Zusammenfassung

Diskrete Diffusionsmodelle haben sich als starke Alternative zu autoregressiven Sprachmodellen etabliert, wobei neuere Arbeiten ein unimodales Basismodell für die bimodale Generierung initialisieren und feinabstimmen. Im Gegensatz zu früheren Ansätzen stellen wir das erste trimodale Masked-Diffusion-Modell vor, das von Grund auf mit Text-, Bild-Text- und Audio-Text-Daten vortrainiert wird. Wir analysieren systematisch multimodale Skalierungsgesetze, Modalitätsmischverhältnisse, Rauschschemata und Batch-Größen-Effekte und stellen optimierte Standardeinstellungen für den Inferenz-Sampling-Prozess bereit. Unsere Analyse der Batch-Größe führt zu einer neuartigen Reparametrisierung auf Basis stochastischer Differentialgleichungen (SDE), die die Notwendigkeit beseitigt, die optimale Batch-Größe abzustimmen, wie in aktuellen Arbeiten berichtet. Diese Reparametrisierung entkoppelt die physische Batch-Größe, die oft auf Basis von Rechenbeschränkungen gewählt wird (GPU-Auslastung, FLOP-Effizienz, Echtzeit), von der logischen Batch-Größe, die gewählt wird, um die Gradientenvarianz während der stochastischen Optimierung auszugleichen. Abschließend trainieren wir ein vorläufiges trimodales Modell mit 3B Parametern auf 6,4T Tokens vortrainiert, demonstrieren die Fähigkeiten eines einheitlichen Designs und erzielen starke Ergebnisse in der Textgenerierung, bei Text-zu-Bild-Aufgaben und Text-zu-Sprache-Aufgaben. Unsere Arbeit stellt die bislang umfassendste systematische Open-Source-Studie zu multimodalen diskreten Diffusionsmodellen dar und liefert Einblicke in Skalierungsverhalten über mehrere Modalitäten hinweg.

English

Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.

Der Gestaltungsraum tri-modaler maskierter Diffusionsmodelle

The Design Space of Tri-Modal Masked Diffusion Models

Zusammenfassung

Support