ChatPaper.aiChatPaper

LLaDA2.0-Uni: Унификация многомодального понимания и генерации с помощью диффузионной большой языковой модели

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

April 22, 2026
Авторы: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao
cs.AI

Аннотация

Мы представляем LLaDA2.0-Uni — унифицированную большую языковую модель с дискретной диффузией (dLLM), которая поддерживает мультимодальное понимание и генерацию в рамках нативно интегрированной архитектуры. Её структура сочетает полностью семантический дискретный токенизатор, базовую модель dLLM на основе смеси экспертов (MoE) и диффузионный декодер. Благодаря дискретизации непрерывных визуальных входных данных через SigLIP-VQ, модель обеспечивает блочную маскированную диффузию для текстовых и визуальных входов в базовом блоке, в то время как декодер реконструирует визуальные токены в изображения высокой четкости. Эффективность вывода повышена по сравнению с параллельным декодированием за счет префиксной оптимизации в базовой модели и малошагового дистилляции в декодере. Подкрепленная тщательно отобранными крупномасштабными данными и специализированным многоэтапным конвейером обучения, LLaDA2.0-Uni соответствует специализированным мультимодальным моделям в понимании, одновременно демонстрируя высокую производительность в генерации и редактировании изображений. Нативная поддержка чередующейся генерации и рассуждений устанавливает перспективную и масштабируемую парадигму для унифицированных фундаментальных моделей следующего поколения. Код и модели доступны по адресу https://github.com/inclusionAI/LLaDA2.0-Uni.
English
We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.
PDF2081April 24, 2026