LLaDA2.0-Uni: Unificazione della Comprensione e Generazione Multimodale con un Modello Linguistico Large basato su Diffusione
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
April 22, 2026
Autori: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao
cs.AI
Abstract
Presentiamo LLaDA2.0-Uni, un modello linguistico grande (LLM) unificato a diffusione discreta che supporta la comprensione e la generazione multimodale all'interno di un framework nativamente integrato. La sua architettura combina un tokenizzatore discreto completamente semantico, un backbone LLM a diffusione basato su MoE e un decoder a diffusione. Discretizzando gli input visivi continui tramite SigLIP-VQ, il modello abilita la diffusione mascherata a livello di blocco sia per gli input testuali che visivi all'interno del backbone, mentre il decoder ricostruisce i token visivi in immagini ad alta fedeltà. L'efficienza inferenziale è potenziata oltre la decodifica parallela grazie a ottimizzazioni *prefix-aware* nel backbone e a una distillazione in pochi passi nel decoder. Supportato da dati su larga scala accuratamente selezionati e da una pipeline di addestramento su più stadi appositamente studiata, LLaDA2.0-Uni eguaglia i VLM specializzati nella comprensione multimodale, fornendo al contempo prestazioni solide nella generazione e modifica di immagini. Il suo supporto nativo per la generazione e il ragionamento intervallati stabilisce un paradigma promettente e scalabile per i modelli fondazionali unificati di prossima generazione. I codici e i modelli sono disponibili all'indirizzo https://github.com/inclusionAI/LLaDA2.0-Uni.
English
We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.