LLaDA2.0-Uni: Unificatie van Multimodaal Begrip en Generatie met een Diffusie-Groot-Taal-Model

Samenvatting

Wij presenteren LLaDA2.0-Uni, een verenigd discreet diffusie groot taalmodel (dLLM) dat multimodale interpretatie en generatie ondersteunt binnen een natieve, geïntegreerde architectuur. De modelarchitectuur combineert een volledig semantische discrete tokenizer, een op Mixture-of-Experts (MoE) gebaseerde dLLM-backbone en een diffusiedecoder. Door continue visuele invoer te discretiseren via SigLIP-VQ, maakt het model blokniveau gemaskeerde diffusie mogelijk voor zowel tekst- als beeldinvoer binnen de backbone, terwijl de decoder visuele tokens reconstrueert tot hoogwaardige afbeeldingen. De inferentie-efficiëntie wordt verder verbeterd voorbij parallel decoderen door prefix-aware optimalisaties in de backbone en few-step distillatie in de decoder. Ondersteund door zorgvuldig samengestelde grootschalige data en een op maat gemaakt meerfasen-trainingsproces, evenaart LLaDA2.0-Uni gespecialiseerde VLMs in multimodale interpretatie en levert het tegelijkertijd sterke prestaties in beeldgeneratie en -bewerking. De native ondersteuning voor geïnterlinieerde generatie en redenering vestigt een veelbelovend en schaalbaar paradigma voor de volgende generatie verenigde foundation-modellen. Code en modellen zijn beschikbaar op https://github.com/inclusionAI/LLaDA2.0-Uni.

English

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.