LLaDA2.0-Uni: Унификация многомодального понимания и генерации с помощью диффузионной большой языковой модели

Аннотация

Мы представляем LLaDA2.0-Uni — унифицированную большую языковую модель с дискретной диффузией (dLLM), которая поддерживает мультимодальное понимание и генерацию в рамках нативно интегрированной архитектуры. Её структура сочетает полностью семантический дискретный токенизатор, базовую модель dLLM на основе смеси экспертов (MoE) и диффузионный декодер. Благодаря дискретизации непрерывных визуальных входных данных через SigLIP-VQ, модель обеспечивает блочную маскированную диффузию для текстовых и визуальных входов в базовом блоке, в то время как декодер реконструирует визуальные токены в изображения высокой четкости. Эффективность вывода повышена по сравнению с параллельным декодированием за счет префиксной оптимизации в базовой модели и малошагового дистилляции в декодере. Подкрепленная тщательно отобранными крупномасштабными данными и специализированным многоэтапным конвейером обучения, LLaDA2.0-Uni соответствует специализированным мультимодальным моделям в понимании, одновременно демонстрируя высокую производительность в генерации и редактировании изображений. Нативная поддержка чередующейся генерации и рассуждений устанавливает перспективную и масштабируемую парадигму для унифицированных фундаментальных моделей следующего поколения. Код и модели доступны по адресу https://github.com/inclusionAI/LLaDA2.0-Uni.

English

We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.