LLaDA-o : Un modèle de diffusion omni efficace et adaptatif en longueur
LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
March 1, 2026
Auteurs: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI
Résumé
Nous présentons LLaDA-o, un modèle de diffusion omni efficace et adaptatif en longueur pour la compréhension et la génération multimodales. LLaDA-o repose sur un cadre de Mélange de Diffusion (MoD) qui découple la diffusion discrète masquée pour la compréhension textuelle et la diffusion continue pour la génération visuelle, tout en les couplant via une architecture attentionnelle partagée, simple et efficace qui réduit le calcul redondant pour les conditions fixes. Sur la base de MoD, nous introduisons en outre une stratégie d'adaptation de longueur centrée sur les données qui permet un décodage à longueur flexible en contexte multimodal sans modifications architecturales. Des expériences approfondies montrent que LLaDA-o obtient des performances de pointe parmi les modèles de diffusion omni sur les benchmarks de compréhension et de génération multimodales, et atteint un score de 87.04 sur DPG-Bench pour la génération d'images à partir de texte, confirmant l'efficacité de la modélisation unifiée par diffusion omni. Le code est disponible à l'adresse https://github.com/ML-GSAI/LLaDA-o.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.