LLaDA2.0-Uni: Vereinheitlichung von multimodalem Verständnis und Generierung mit einem Diffusion Large Language Model

Zusammenfassung

Wir stellen LLaDA2.0-Uni vor, ein vereinheitlichtes diskretes Diffusions-Sprachmodell (dLLM), das multimodales Verständnis und Generierung innerhalb eines nativ integrierten Frameworks unterstützt. Seine Architektur kombiniert einen vollständig semantischen diskreten Tokenizer, einen auf Mixture-of-Experts (MoE) basierenden dLLM-Hauptteil und einen Diffusions-Decoder. Durch die Diskretisierung kontinuierlicher visueller Eingaben mittels SigLIP-VQ ermöglicht das Modell blockweise maskierte Diffusion für Text- und Bildeingaben innerhalb des Hauptteils, während der Decoder visuelle Tokens in hochwertige Bilder rekonstruiert. Die Inferenzeffizienz wird über parallele Decodierung hinaus durch präfixbewusste Optimierungen im Hauptteil und Few-Step-Distillation im Decoder gesteigert. Unterstützt durch sorgfältig kuratierte Large-Scale-Daten und eine maßgeschneiderte mehrstufige Trainingspipeline erreicht LLaDA2.0-Uni die Leistung spezialisierter multimodaler Sprachmodelle im Verständnis, während es gleichzeitig starke Leistungen in der Bildgenerierung und -bearbeitung erbringt. Die native Unterstützung für verschachtelte Generierung und Reasoning etabliert ein vielversprechendes und skalierbares Paradigma für vereinheitlichte Foundation-Models der nächsten Generation. Codes und Modelle sind verfügbar unter https://github.com/inclusionAI/LLaDA2.0-Uni.

English

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.