LLaDA-o: Un Modelo de Difusión Omni Eficaz y de Longitud Adaptativa

Resumen

Presentamos LLaDA-o, un modelo de difusión omni eficaz y adaptable en longitud para comprensión y generación multimodal. LLaDA-o se construye sobre un marco de Mezcla de Difusión (MoD) que desacopla la difusión con enmascaramiento discreto para comprensión textual y la difusión continua para generación visual, mientras las acopla mediante una arquitectura de atención compartida, simple y eficiente que reduce el cómputo redundante para condiciones fijas. Basándonos en MoD, introducimos además una estrategia de adaptación de longitud centrada en datos que permite una decodificación de longitud flexible en entornos multimodales sin cambios arquitectónicos. Experimentos exhaustivos demuestran que LLaDA-o alcanza un rendimiento de vanguardia entre los modelos de difusión omni en benchmarks de comprensión y generación multimodal, y alcanza 87.04 en DPG-Bench para generación de texto a imagen, respaldando la efectividad del modelado unificado de difusión omni. El código está disponible en https://github.com/ML-GSAI/LLaDA-o.

English

We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.

LLaDA-o: Un Modelo de Difusión Omni Eficaz y de Longitud Adaptativa

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

Resumen

Support