LLaDA2.0-Uni: Unificatie van Multimodaal Begrip en Generatie met een Diffusie-Groot-Taal-Model
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
April 22, 2026
Auteurs: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao
cs.AI
Samenvatting
Wij presenteren LLaDA2.0-Uni, een verenigd discreet diffusie groot taalmodel (dLLM) dat multimodale interpretatie en generatie ondersteunt binnen een natieve, geïntegreerde architectuur. De modelarchitectuur combineert een volledig semantische discrete tokenizer, een op Mixture-of-Experts (MoE) gebaseerde dLLM-backbone en een diffusiedecoder. Door continue visuele invoer te discretiseren via SigLIP-VQ, maakt het model blokniveau gemaskeerde diffusie mogelijk voor zowel tekst- als beeldinvoer binnen de backbone, terwijl de decoder visuele tokens reconstrueert tot hoogwaardige afbeeldingen. De inferentie-efficiëntie wordt verder verbeterd voorbij parallel decoderen door prefix-aware optimalisaties in de backbone en few-step distillatie in de decoder. Ondersteund door zorgvuldig samengestelde grootschalige data en een op maat gemaakt meerfasen-trainingsproces, evenaart LLaDA2.0-Uni gespecialiseerde VLMs in multimodale interpretatie en levert het tegelijkertijd sterke prestaties in beeldgeneratie en -bewerking. De native ondersteuning voor geïnterlinieerde generatie en redenering vestigt een veelbelovend en schaalbaar paradigma voor de volgende generatie verenigde foundation-modellen. Code en modellen zijn beschikbaar op https://github.com/inclusionAI/LLaDA2.0-Uni.
English
We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.