삼중 모달 마스킹 확산 모델의 설계 공간
The Design Space of Tri-Modal Masked Diffusion Models
February 25, 2026
저자: Louis Bethune, Victor Turrisi, Bruno Kacper Mlodozeniec, Pau Rodriguez Lopez, Lokesh Boominathan, Nikhil Bhendawade, Amitis Shidani, Joris Pelemans, Theo X. Olausson, Devon Hjelm, Paul Dixon, Joao Monteiro, Pierre Ablin, Vishnu Banna, Arno Blaas, Nick Henderson, Kari Noriy, Dan Busbridge, Josh Susskind, Marco Cuturi, Irina Belousova, Luca Zappella, Russ Webb, Jason Ramapuram
cs.AI
초록
이산 확산 모델은 자동회귀 언어 모델의 강력한 대안으로 부상했으며, 최근 연구에서는 기반 단일 모달리티 모델을 초기화하여 이중 모달리티 생성을 위해 미세 조정하는 접근법이 등장했습니다. 기존 접근법과 차별화되게, 본 연구에서는 텍스트, 이미지-텍스트, 오디오-텍스트 데이터를 처음부터 사전 학습한 최초의 삼중 모달리티 마스크 확산 모델을 소개합니다. 우리는 다중 모달리티 확장 법칙, 모달리티 혼합 비율, 노이즈 스케줄 및 배치 크기 효과를 체계적으로 분석하고 최적화된 추론 샘플링 기본값을 제시합니다. 배치 크기 분석을 통해 최근 연구에서 보고된 최적 배치 크기 조정 필요성을 제거하는 새로운 확률미분방정식(SDE) 기반 재매개변수화 방식을 도출했습니다. 이 재매개변수화는 일반적으로 컴퓨팅 제약(GPU 포화, FLOP 효율성, 경과 시간)에 따라 선택되는 물리적 배치 크기와 확률적 최적화 과정에서 기울기 분산을 균형 있게 조정하기 위해 선택되는 논리적 배치 크기를 분리합니다. 마지막으로, 우리는 6.4T 토큰으로 구성된 데이터로 30억 매개변수 규모의 예비 삼중 모달리티 모델을 사전 학습하여 통합 설계의 가능성을 입증하고 텍스트 생성, 텍스트-이미지 변환, 텍스트-음성 변환 과제에서 강력한 성능을 달성했습니다. 본 연구는 현재까지 진행된 다중 모달리티 이산 확산 모델에 대한 가장 대규모의 체계적 공개 연구로서, 다중 모달리티 간 확장 동향에 대한 통찰을 제공합니다.
English
Discrete diffusion models have emerged as strong alternatives to autoregressive language models, with recent work initializing and fine-tuning a base unimodal model for bimodal generation. Diverging from previous approaches, we introduce the first tri-modal masked diffusion model pretrained from scratch on text, image-text, and audio-text data. We systematically analyze multimodal scaling laws, modality mixing ratios, noise schedules, and batch-size effects, and we provide optimized inference sampling defaults. Our batch-size analysis yields a novel stochastic differential equation (SDE)-based reparameterization that eliminates the need for tuning the optimal batch size as reported in recent work. This reparameterization decouples the physical batch size, often chosen based on compute constraints (GPU saturation, FLOP efficiency, wall-clock time), from the logical batch size, chosen to balance gradient variance during stochastic optimization. Finally, we pretrain a preliminary 3B-parameter tri-modal model on 6.4T tokens, demonstrating the capabilities of a unified design and achieving strong results in text generation, text-to-image tasks, and text-to-speech tasks. Our work represents the largest-scale systematic open study of multimodal discrete diffusion models conducted to date, providing insights into scaling behaviors across multiple modalities.