ChatPaper.aiChatPaper

LLaDA-o: Um Modelo de Difusão Omni Eficaz e Adaptativo em Comprimento

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

March 1, 2026
Autores: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI

Resumo

Apresentamos o LLaDA-o, um modelo de difusão omni eficaz e adaptativo em comprimento para compreensão e geração multimodais. O LLaDA-o é construído sobre uma arquitetura de Mistura de Difusão (MoD) que desacopla a difusão discreta com mascaramento para compreensão de texto e a difusão contínua para geração visual, ao mesmo tempo que as acopla através de uma estrutura de atenção compartilhada, simples e eficiente que reduz a computação redundante para condições fixas. Com base no MoD, introduzimos ainda uma estratégia de adaptação de comprimento centrada em dados que permite decodificação de comprimento flexível em ambientes multimodais sem alterações arquiteturais. Experimentos extensivos mostram que o LLaDA-o alcança desempenho state-of-the-art entre os modelos de difusão omni em benchmarks de compreensão e geração multimodais, atingindo 87.04 no DPG-Bench para geração de texto para imagem, corroborando a eficácia da modelagem unificada de difusão omni. O código está disponível em https://github.com/ML-GSAI/LLaDA-o.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.
PDF222March 19, 2026