Sparse-LaViDa: Sparse multimodale diskrete Diffusions-Sprachmodelle
Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models
December 16, 2025
papers.authors: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
papers.abstract
Masked Discrete Diffusion Models (MDMs) haben in einer Vielzahl multimodaler Aufgaben hervorragende Leistungen erzielt, einschließlich Bildverständnis, -generierung und -bearbeitung. Ihre Inferenzgeschwindigkeit bleibt jedoch aufgrund der Notwendigkeit, bei jedem Abtastschritt redundante maskierte Token wiederholt zu verarbeiten, suboptimal. In dieser Arbeit schlagen wir Sparse-LaViDa vor, ein neuartiges Modellierungsframework, das bei jedem Inferenzschritt unnötige maskierte Token dynamisch abschneidet, um die MDM-Abtastung zu beschleunigen. Um die Generierungsqualität zu erhalten, führen wir spezielle Register-Token ein, die als kompakte Repräsentationen für die abgeschnittenen Token dienen. Darüber hinaus entwerfen wir eine spezielle Attention-Maske, die den abgeschnittenen Abtastprozess während des Trainings exakt abbildet, um die Konsistenz zwischen Training und Inferenz zu gewährleisten. Aufbauend auf dem state-of-the-art einheitlichen MDM LaViDa-O erzielt Sparse-LaViDa bei verschiedenen Aufgaben, einschließlich Text-zu-Bild-Generierung, Bildbearbeitung und mathematischem Reasoning, eine bis zu 2-fache Beschleunigung, bei gleichbleibender Generierungsqualität.
English
Masked Discrete Diffusion Models (MDMs) have achieved strong performance across a wide range of multimodal tasks, including image understanding, generation, and editing. However, their inference speed remains suboptimal due to the need to repeatedly process redundant masked tokens at every sampling step. In this work, we propose Sparse-LaViDa, a novel modeling framework that dynamically truncates unnecessary masked tokens at each inference step to accelerate MDM sampling. To preserve generation quality, we introduce specialized register tokens that serve as compact representations for the truncated tokens. Furthermore, to ensure consistency between training and inference, we design a specialized attention mask that faithfully matches the truncated sampling procedure during training. Built upon the state-of-the-art unified MDM LaViDa-O, Sparse-LaViDa achieves up to a 2x speedup across diverse tasks including text-to-image generation, image editing, and mathematical reasoning, while maintaining generation quality.