Sparse-LaViDa: Sparse Multimodale Discrete Diffusie Taalmodellen
Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models
December 16, 2025
Auteurs: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
Samenvatting
Gemaskerde Discrete Diffusion-modellen (MDM's) hebben sterke prestaties behaald in een breed scala aan multimodale taken, waaronder beeldbegrip, -generatie en -bewerking. Hun inferentiesnelheid blijft echter suboptimaal vanwege de noodzaak om bij elke samplingstap herhaaldelijk overbodige gemaskeerde tokens te verwerken. In dit werk stellen we Sparse-LaViDa voor, een nieuw modelleerkader dat onnodige gemaskeerde tokens bij elke inferentiestap dynamisch afkapt om MDM-sampling te versnellen. Om de generatiekwaliteit te behouden, introduceren we gespecialiseerde registertokens die dienen als compacte representaties voor de afgekapte tokens. Verder ontwerpen we, om consistentie tussen training en inferentie te garanderen, een gespecialiseerd aandachtmasker dat het afgekapte samplingproces tijdens de training nauwkeurig nabootst. Gebaseerd op de state-of-the-art verenigde MDM LaViDa-O, bereikt Sparse-LaViDa een versnelling tot 2x bij diverse taken zoals tekst-naar-beeldgeneratie, beeldbewerking en wiskundig redeneren, waarbij de generatiekwaliteit behouden blijft.
English
Masked Discrete Diffusion Models (MDMs) have achieved strong performance across a wide range of multimodal tasks, including image understanding, generation, and editing. However, their inference speed remains suboptimal due to the need to repeatedly process redundant masked tokens at every sampling step. In this work, we propose Sparse-LaViDa, a novel modeling framework that dynamically truncates unnecessary masked tokens at each inference step to accelerate MDM sampling. To preserve generation quality, we introduce specialized register tokens that serve as compact representations for the truncated tokens. Furthermore, to ensure consistency between training and inference, we design a specialized attention mask that faithfully matches the truncated sampling procedure during training. Built upon the state-of-the-art unified MDM LaViDa-O, Sparse-LaViDa achieves up to a 2x speedup across diverse tasks including text-to-image generation, image editing, and mathematical reasoning, while maintaining generation quality.