Sparse-LaViDa: 희소 다중모드 이산 확산 언어 모델
Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models
December 16, 2025
저자: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
초록
마스킹 이산 확산 모델(MDM)은 이미지 이해, 생성, 편집 등 다양한 멀티모달 작업에서 뛰어난 성능을 입증했습니다. 그러나 모든 샘플링 단계에서 중복된 마스킹 토큰을 반복적으로 처리해야 하므로 추론 속도는 여전히 최적화되지 않은 상태입니다. 본 연구에서는 MDM 샘플링 가속화를 위해 각 추론 단계에서 불필요한 마스킹 토큰을 동적으로 제거하는 새로운 모델링 프레임워크인 Sparse-LaViDa를 제안합니다. 생성 품질을 유지하기 위해 잘린 토큰의 간결한 표현 역할을 하는 전용 레지스터 토큰을 도입합니다. 또한 훈련과 추론 간의 일관성을 보장하기 위해 훈련 중에 제거된 샘플링 절차를 정확히 모방한 전용 어텐션 마스크를 설계합니다. 최첨단 통합 MDM인 LaViDa-O를 기반으로 구축된 Sparse-LaViDa는 텍스트-이미지 생성, 이미지 편집, 수학적 추론 등 다양한 작업에서 생성 품질을 유지하면서 최대 2배의 속도 향상을 달성합니다.
English
Masked Discrete Diffusion Models (MDMs) have achieved strong performance across a wide range of multimodal tasks, including image understanding, generation, and editing. However, their inference speed remains suboptimal due to the need to repeatedly process redundant masked tokens at every sampling step. In this work, we propose Sparse-LaViDa, a novel modeling framework that dynamically truncates unnecessary masked tokens at each inference step to accelerate MDM sampling. To preserve generation quality, we introduce specialized register tokens that serve as compact representations for the truncated tokens. Furthermore, to ensure consistency between training and inference, we design a specialized attention mask that faithfully matches the truncated sampling procedure during training. Built upon the state-of-the-art unified MDM LaViDa-O, Sparse-LaViDa achieves up to a 2x speedup across diverse tasks including text-to-image generation, image editing, and mathematical reasoning, while maintaining generation quality.