LLaDA2.0-Uni : Unification de la compréhension et de la génération multimodales avec un grand modèle de langage à diffusion

Résumé

Nous présentons LLaDA2.0-Uni, un grand langage de modèle à diffusion discrète unifié (dLLM) qui prend en charge la compréhension et la génération multimodales au sein d'un cadre intégré natif. Son architecture combine un tokeniseur discret entièrement sémantique, un backbone dLLM basé sur MoE (Mixture of Experts) et un décodeur à diffusion. En discrétisant les entrées visuelles continues via SigLIP-VQ, le modèle permet une diffusion masquée au niveau des blocs pour les entrées textuelles et visuelles au sein du backbone, tandis que le décodeur reconstitue les tokens visuels en images de haute fidélité. L'efficacité de l'inférence est améliorée au-delà du décodage parallèle grâce à des optimisations sensibles au préfixe dans le backbone et une distillation en peu d'étapes dans le décodeur. Soutenu par des données à grande échelle soigneusement sélectionnées et un pipeline d'entraînement multi-étapes adapté, LLaDA2.0-Uni rivalise avec les modèles de langage visuel spécialisés en compréhension multimodale tout en offrant des performances solides en génération et édition d'images. Sa prise en charge native de la génération et du raisonnement entrelacés établit un paradigme prometteur et évolutif pour les modèles de fondation unifiés de nouvelle génération. Les codes et modèles sont disponibles à l'adresse https://github.com/inclusionAI/LLaDA2.0-Uni.

English

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.