LLaDA-o: 효과적이고 길이 적응형 올마이티 확산 모델
LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
March 1, 2026
저자: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI
초록
LLaDA-o를 소개합니다. 이는 다중모드 이해 및 생성을 위한 효과적이고 길이 적응형의 범용 확산 모델입니다. LLaDA-o는 Mixture of Diffusion(MoD) 프레임워크를 기반으로 구축되었으며, 이 프레임워크는 텍스트 이해를 위한 이산 마스크 확산과 시각적 생성을 위한 연속 확산을 분리하는 동시에, 고정된 조건에 대한 중복 계산을 줄여주는 공유되고 단순하며 효율적인 어텐션 백본을 통해 이들을 결합합니다. MoD를 기반으로, 아키텍처 변경 없이 다중모드 설정에서 유연한 길이 디코딩을 가능하게 하는 데이터 중심의 길이 적응 전략을 추가로 도입합니다. 다양한 실험 결과, LLaDA-o는 다중모드 이해 및 생성 벤치마크에서 범용 확산 모델 중 최고 수준의 성능을 달성했으며, 텍스트-이미지 생성에서 DPG-Bench 기준 87.04점에 도달하여 통합 범용 확산 모델링의 효과성을 입증했습니다. 코드는 https://github.com/ML-GSAI/LLaDA-o에서 확인할 수 있습니다.
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.