L'Espace de Conception des Modèles de Diffusion Masquée Tri-modaux

Résumé

Les modèles de diffusion discrets sont apparus comme de solides alternatives aux modèles de langage autogressifs, des travaux récents ayant initialisé et affiné un modèle unimodal de base pour une génération bimodale. Nous nous écartons des approches antérieures en introduisant le premier modèle de diffusion masquée trimodal pré-entraîné dès le départ sur des données texte, image-texte et audio-texte. Nous analysons systématiquement les lois d'échelle multimodales, les ratios de mélange de modalités, les planifications de bruit et les effets de la taille des lots, et nous fournissons des paramètres par défaut optimisés pour l'inférence. Notre analyse de la taille des lots produit une reparamétrisation novatrice basée sur une équation différentielle stochastique (EDS) qui élimine le besoin de régler la taille optimale du lot comme rapporté dans des travaux récents. Cette reparamétrisation découple la taille physique du lot, souvent choisie en fonction des contraintes de calcul (saturation des GPU, efficacité des FLOP, temps réel), de la taille logique du lot, choisie pour équilibrer la variance du gradient lors de l'optimisation stochastique. Enfin, nous pré-entraînons un modèle trimodal préliminaire de 3 milliards de paramètres sur 6,4 billions de tokens, démontrant les capacités d'une conception unifiée et obtenant des résultats solides en génération de texte, en tâches texte-à-image et en tâches texte-à-parole. Notre travail représente l'étude ouverte systématique la plus vaste à ce jour sur les modèles de diffusion discrets multimodaux, fournissant des insights sur les comportements d'échelle à travers de multiples modalités.

English

Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.

L'Espace de Conception des Modèles de Diffusion Masquée Tri-modaux

The Design Space of Tri-Modal Masked Diffusion Models

Résumé

Support