LLaDA2.0-Uni: Unificando Compreensão e Geração Multimodal com o Modelo de Linguagem Grande por Difusão
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
April 22, 2026
Autores: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao
cs.AI
Resumo
Apresentamos o LLaDA2.0-Uni, um modelo de linguagem grande (LLM) unificado baseado em difusão discreta que suporta compreensão e geração multimodal dentro de uma estrutura integrada de forma nativa. Sua arquitetura combina um tokenizador discreto totalmente semântico, uma estrutura principal de LLM baseada em Mixture of Experts (MoE) e um decodificador de difusão. Ao discretizar entradas visuais contínuas via SigLIP-VQ, o modelo permite difusão mascarada em nível de bloco para entradas de texto e visão dentro da estrutura principal, enquanto o decodificador reconstrói os tokens visuais em imagens de alta fidelidade. A eficiência na inferência é aprimorada além da decodificação paralela por meio de otimizações conscientes do prefixo na estrutura principal e de destilação em poucos passos no decodificador. Suportado por dados em larga escala criteriosamente curados e um pipeline de treinamento multietapa personalizado, o LLaDA2.0-Uni equipara-se a modelos de linguagem visual (VLM) especializados em compreensão multimodal, ao mesmo tempo que oferece um desempenho sólido em geração e edição de imagens. Seu suporte nativo para geração e raciocínio intercalados estabelece um paradigma promissor e escalável para os modelos de base unificados de próxima geração. Códigos e modelos estão disponíveis em https://github.com/inclusionAI/LLaDA2.0-Uni.
English
We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.