LLaDA2.0-Uni: Unificazione della Comprensione e Generazione Multimodale con un Modello Linguistico Large basato su Diffusione

Abstract

Presentiamo LLaDA2.0-Uni, un modello linguistico grande (LLM) unificato a diffusione discreta che supporta la comprensione e la generazione multimodale all'interno di un framework nativamente integrato. La sua architettura combina un tokenizzatore discreto completamente semantico, un backbone LLM a diffusione basato su MoE e un decoder a diffusione. Discretizzando gli input visivi continui tramite SigLIP-VQ, il modello abilita la diffusione mascherata a livello di blocco sia per gli input testuali che visivi all'interno del backbone, mentre il decoder ricostruisce i token visivi in immagini ad alta fedeltà. L'efficienza inferenziale è potenziata oltre la decodifica parallela grazie a ottimizzazioni *prefix-aware* nel backbone e a una distillazione in pochi passi nel decoder. Supportato da dati su larga scala accuratamente selezionati e da una pipeline di addestramento su più stadi appositamente studiata, LLaDA2.0-Uni eguaglia i VLM specializzati nella comprensione multimodale, fornendo al contempo prestazioni solide nella generazione e modifica di immagini. Il suo supporto nativo per la generazione e il ragionamento intervallati stabilisce un paradigma promettente e scalabile per i modelli fondazionali unificati di prossima generazione. I codici e i modelli sono disponibili all'indirizzo https://github.com/inclusionAI/LLaDA2.0-Uni.

English

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.