ChatPaper.aiChatPaper

Sparse-LaViDa: スパースマルチモーダル離散拡散言語モデル

Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

December 16, 2025
著者: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI

要旨

Masked Discrete Diffusion Models (MDMs)は、画像理解、生成、編集を含む多様なマルチモーダルタスクにおいて優れた性能を達成している。しかし、各サンプリングステップで冗長なマスクトークンを繰り返し処理する必要があるため、その推論速度は最適とは言い難い。本研究では、各推論ステップで不要なマスクトークンを動的に刈り込むことでMDMサンプリングを高速化する新しいモデリングフレームワーク、Sparse-LaViDaを提案する。生成品質を維持するため、刈り込まれたトークンのコンパクトな表現として機能する専用のレジスタートークンを導入する。さらに、学習と推論の一貫性を確保するため、学習時に刈り込みサンプリング手順を忠実に模倣する専用のアテンションマスクを設計する。最先端の統一MDMであるLaViDa-Oを基盤とするSparse-LaViDaは、テキストからの画像生成、画像編集、数学的推論といった多様なタスクにおいて、生成品質を維持しつつ最大2倍の高速化を実現する。
English
Masked Discrete Diffusion Models (MDMs) have achieved strong performance across a wide range of multimodal tasks, including image understanding, generation, and editing. However, their inference speed remains suboptimal due to the need to repeatedly process redundant masked tokens at every sampling step. In this work, we propose Sparse-LaViDa, a novel modeling framework that dynamically truncates unnecessary masked tokens at each inference step to accelerate MDM sampling. To preserve generation quality, we introduce specialized register tokens that serve as compact representations for the truncated tokens. Furthermore, to ensure consistency between training and inference, we design a specialized attention mask that faithfully matches the truncated sampling procedure during training. Built upon the state-of-the-art unified MDM LaViDa-O, Sparse-LaViDa achieves up to a 2x speedup across diverse tasks including text-to-image generation, image editing, and mathematical reasoning, while maintaining generation quality.
PDF71December 18, 2025