Пространство проектирования тримодальных диффузионных моделей с маскированием

Аннотация

Дискретные диффузионные модели стали мощной альтернативой авторегрессионным языковым моделям, при этом в последних работах базовую унимодальную модель инициализируют и дообучают для бимодального поколения. В отличие от предыдущих подходов, мы представляем первую тримодальную маскированную диффузионную модель, предобученную с нуля на данных текста, изображений-текста и аудио-текста. Мы систематически анализируем законы масштабирования для мультимодальных данных, соотношения смешения модальностей, графики зашумления и эффекты размера пакета, а также предоставляем оптимизированные настройки по умолчанию для вывода. Наш анализ размера пакета приводит к новой параметризации на основе стохастических дифференциальных уравнений (СДУ), которая устраняет необходимость подбора оптимального размера пакета, как сообщалось в недавних работах. Эта параметризация разделяет физический размер пакета, часто выбираемый на основе вычислительных ограничений (насыщение GPU, эффективность FLOP, реальное время выполнения), и логический размер пакета, выбираемый для балансировки дисперсии градиента при стохастической оптимизации. Наконец, мы предобучаем предварительную тримодальную модель с 3 миллиардами параметров на 6,4 триллионах токенов, демонстрируя возможности унифицированного подхода и достигая высоких результатов в задачах генерации текста, тексто-изображения и тексто-речи. Наша работа представляет собой наиболее масштабное систематическое открытое исследование мультимодальных дискретных диффузионных моделей, проведенное на сегодняшний день, и дает представление о закономерностях масштабирования для множественных модальностей.

English

Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.

Пространство проектирования тримодальных диффузионных моделей с маскированием

The Design Space of Tri-Modal Masked Diffusion Models

Аннотация

Support