ChatPaper.aiChatPaper

LLaDA-o: Een effectief en lengte-adaptief omni-diffusiemodel

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

March 1, 2026
Auteurs: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI

Samenvatting

Wij presenteren LLaDA-o, een effectief en lengte-adaptief omni-diffusiemodel voor multimodale interpretatie en generatie. LLaDA-o is gebouwd op een Mixture of Diffusion (MoD) raamwerk dat discrete gemaskeerde diffusie voor tekstinterpretatie en continue diffusie voor visuele generatie ontkoppelt, terwijl ze worden gekoppeld via een gedeelde, eenvoudige en efficiënte attention-backbone die overbodige berekeningen voor vaste condities reduceert. Voortbordurend op MoD introduceren we verder een data-gedreven lengte-adaptatiestrategie die flexibele-lengte-decodering in multimodale settings mogelijk maakt zonder architectuurwijzigingen. Uitgebreide experimenten tonen aan dat LLaDA-o state-of-the-art prestaties bereikt onder omni-diffusiemodellen op multimodale interpretatie- en generatiebenchmarks, en een score van 87.04 behaalt op DPG-Bench voor tekst-naar-beeld-generatie, wat de effectiviteit van uniforme omni-diffusiemodellering ondersteunt. Code is beschikbaar op https://github.com/ML-GSAI/LLaDA-o.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.
PDF222March 19, 2026