LLaDA-o: Un modello di diffusione onnicomprensivo efficace e adattivo alla lunghezza
LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
March 1, 2026
Autori: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI
Abstract
Presentiamo LLaDA-o, un efficace modello di diffusione onnicomprensivo e adattabile alla lunghezza, per la comprensione e generazione multimodale. LLaDA-o è costruito su un framework Mixture of Diffusion (MoD) che disaccoppia la diffusione discreta mascherata per la comprensione del testo e la diffusione continua per la generazione visiva, accoppiandole attraverso un'architettura di attenzione condivisa, semplice ed efficiente che riduce il calcolo ridondante per condizioni fisse. Basandoci su MoD, introduciamo inoltre una strategia di adattamento alla lunghezza incentrata sui dati che consente una decodifica a lunghezza flessibile in contesti multimodali senza modifiche architetturali. Esperimenti estensivi dimostrano che LLaDA-o raggiunge prestazioni allo stato dell'arte tra i modelli di diffusione onnicomprensivi su benchmark di comprensione e generazione multimodale, e raggiunge un punteggio di 87.04 sul DPG-Bench per la generazione di immagini da testo, supportando l'efficacia della modellazione unificata della diffusione onnicomprensiva. Il codice è disponibile all'indirizzo https://github.com/ML-GSAI/LLaDA-o.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.