LLaDA2.0-Uni: Vereinheitlichung von multimodalem Verständnis und Generierung mit einem Diffusion Large Language Model
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
April 22, 2026
Autoren: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao
cs.AI
Zusammenfassung
Wir stellen LLaDA2.0-Uni vor, ein vereinheitlichtes diskretes Diffusions-Sprachmodell (dLLM), das multimodales Verständnis und Generierung innerhalb eines nativ integrierten Frameworks unterstützt. Seine Architektur kombiniert einen vollständig semantischen diskreten Tokenizer, einen auf Mixture-of-Experts (MoE) basierenden dLLM-Hauptteil und einen Diffusions-Decoder. Durch die Diskretisierung kontinuierlicher visueller Eingaben mittels SigLIP-VQ ermöglicht das Modell blockweise maskierte Diffusion für Text- und Bildeingaben innerhalb des Hauptteils, während der Decoder visuelle Tokens in hochwertige Bilder rekonstruiert. Die Inferenzeffizienz wird über parallele Decodierung hinaus durch präfixbewusste Optimierungen im Hauptteil und Few-Step-Distillation im Decoder gesteigert. Unterstützt durch sorgfältig kuratierte Large-Scale-Daten und eine maßgeschneiderte mehrstufige Trainingspipeline erreicht LLaDA2.0-Uni die Leistung spezialisierter multimodaler Sprachmodelle im Verständnis, während es gleichzeitig starke Leistungen in der Bildgenerierung und -bearbeitung erbringt. Die native Unterstützung für verschachtelte Generierung und Reasoning etabliert ein vielversprechendes und skalierbares Paradigma für vereinheitlichte Foundation-Models der nächsten Generation. Codes und Modelle sind verfügbar unter https://github.com/inclusionAI/LLaDA2.0-Uni.
English
We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.