LLaDA-o: Ein effektives und längenadaptives Omni-Diffusionsmodell
LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
March 1, 2026
Autoren: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI
Zusammenfassung
Wir stellen LLaDA-o vor, ein effektives und längenadaptives Omni-Diffusionsmodell für multimodales Verständnis und Generierung. LLaDA-o basiert auf einem Mixture of Diffusion (MoD) Framework, das diskrete maskierte Diffusion für Textverständnis und kontinuierliche Diffusion für visuelle Generierung entkoppelt, während es sie durch ein gemeinsames, einfaches und effizientes Attention-Backbone koppelt, das redundante Berechnungen für feste Bedingungen reduziert. Aufbauend auf MoD führen wir weiterhin eine datenzentrierte Längenanpassungsstrategie ein, die flexibles Längendecodieren in multimodalen Settings ohne Architekturänderungen ermöglicht. Umfangreiche Experimente zeigen, dass LLaDA-o state-of-the-art Leistung unter Omni-Diffusionsmodellen in multimodalen Verständnis- und Generierungsbenchmarks erreicht und für Text-zu-Bild-Generierung auf DPG-Bench 87.04 Punkte erzielt, was die Effektivität der vereinheitlichten Omni-Diffusionsmodellierung unterstützt. Code ist verfügbar unter https://github.com/ML-GSAI/LLaDA-o.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.