LLaDA2.0-Uni: Unificación de la Comprensión y Generación Multimodal con un Modelo de Lenguaje Grande Basado en Difusión

Resumen

Presentamos LLaDA2.0-Uni, un modelo de lenguaje grande (LLM) de difusión discreta unificado que admite comprensión y generación multimodal dentro de un marco integrado de forma nativa. Su arquitectura combina un tokenizador discreto completamente semántico, un backbone de LLM de difusión basado en Mixture of Experts (MoE) y un decodificador de difusión. Al discretizar entradas visuales continuas mediante SigLIP-VQ, el modelo permite una difusión enmascarada a nivel de bloque tanto para entradas de texto como visuales dentro del backbone, mientras que el decodificador reconstruye los tokens visuales en imágenes de alta fidelidad. La eficiencia de inferencia se mejora más allá de la decodificación paralela mediante optimizaciones conscientes del prefijo en el backbone y destilación en pocos pasos en el decodificador. Respaldado por datos a gran escala cuidadosamente seleccionados y una pipeline de entrenamiento multietapa personalizada, LLaDA2.0-Uni iguala a los modelos de lenguaje visual (VLM) especializados en comprensión multimodal, a la vez que ofrece un rendimiento sólido en generación y edición de imágenes. Su soporte nativo para generación entrelazada y razonamiento establece un paradigma prometedor y escalable para los modelos fundamentales unificados de próxima generación. Los códigos y modelos están disponibles en https://github.com/inclusionAI/LLaDA2.0-Uni.

English

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.