ChatPaper.aiChatPaper

LLaDA-o: Эффективная и адаптивная к длине диффузионная модель общего назначения

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

March 1, 2026
Авторы: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI

Аннотация

Мы представляем LLaDA-o — эффективную и адаптивную по длине универсальную диффузионную модель для мультимодального понимания и генерации. LLaDA-o построена на основе фреймворка Mixture of Diffusion (MoD), который разделяет дискретную маскированную диффузию для понимания текста и непрерывную диффузию для визуальной генерации, связывая их через общий, простой и эффективный механизм внимания, снижающий избыточные вычисления для фиксированных условий. На основе MoD мы дополнительно вводим центрированную на данных стратегию адаптации длины, которая обеспечивает декодирование гибкой длины в мультимодальных сценариях без изменений архитектуры. Многочисленные эксперименты показывают, что LLaDA-o достигает наилучших результатов среди универсальных диффузионных моделей на бенчмарках мультимодального понимания и генерации, а также набирает 87.04 балла на DPG-Bench для генерации изображений по тексту, что подтверждает эффективность унифицированного диффузионного моделирования. Код доступен по адресу https://github.com/ML-GSAI/LLaDA-o.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.
PDF141March 4, 2026