LLaDA2.0-Uni: Unificando Compreensão e Geração Multimodal com o Modelo de Linguagem Grande por Difusão

Resumo

Apresentamos o LLaDA2.0-Uni, um modelo de linguagem grande (LLM) unificado baseado em difusão discreta que suporta compreensão e geração multimodal dentro de uma estrutura integrada de forma nativa. Sua arquitetura combina um tokenizador discreto totalmente semântico, uma estrutura principal de LLM baseada em Mixture of Experts (MoE) e um decodificador de difusão. Ao discretizar entradas visuais contínuas via SigLIP-VQ, o modelo permite difusão mascarada em nível de bloco para entradas de texto e visão dentro da estrutura principal, enquanto o decodificador reconstrói os tokens visuais em imagens de alta fidelidade. A eficiência na inferência é aprimorada além da decodificação paralela por meio de otimizações conscientes do prefixo na estrutura principal e de destilação em poucos passos no decodificador. Suportado por dados em larga escala criteriosamente curados e um pipeline de treinamento multietapa personalizado, o LLaDA2.0-Uni equipara-se a modelos de linguagem visual (VLM) especializados em compreensão multimodal, ao mesmo tempo que oferece um desempenho sólido em geração e edição de imagens. Seu suporte nativo para geração e raciocínio intercalados estabelece um paradigma promissor e escalável para os modelos de base unificados de próxima geração. Códigos e modelos estão disponíveis em https://github.com/inclusionAI/LLaDA2.0-Uni.

English

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.