LLaDA-o: Un Modelo de Difusión Omni Eficaz y de Longitud Adaptativa
LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
March 1, 2026
Autores: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI
Resumen
Presentamos LLaDA-o, un modelo de difusión omni eficaz y adaptable en longitud para comprensión y generación multimodal. LLaDA-o se construye sobre un marco de Mezcla de Difusión (MoD) que desacopla la difusión con enmascaramiento discreto para comprensión textual y la difusión continua para generación visual, mientras las acopla mediante una arquitectura de atención compartida, simple y eficiente que reduce el cómputo redundante para condiciones fijas. Basándonos en MoD, introducimos además una estrategia de adaptación de longitud centrada en datos que permite una decodificación de longitud flexible en entornos multimodales sin cambios arquitectónicos. Experimentos exhaustivos demuestran que LLaDA-o alcanza un rendimiento de vanguardia entre los modelos de difusión omni en benchmarks de comprensión y generación multimodal, y alcanza 87.04 en DPG-Bench para generación de texto a imagen, respaldando la efectividad del modelado unificado de difusión omni. El código está disponible en https://github.com/ML-GSAI/LLaDA-o.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.