ChatPaper.aiChatPaper

Lumina-DiMOO: Универсальная диффузионная модель большого языка для многомодальной генерации и понимания

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

October 7, 2025
Авторы: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI

Аннотация

Мы представляем Lumina-DiMOO — открытую базовую модель для бесшовной генерации и понимания мультимодальных данных. Lumina-DiMOO выделяется среди предыдущих унифицированных моделей благодаря использованию полностью дискретного диффузионного моделирования для обработки входных и выходных данных в различных модальностях. Этот инновационный подход позволяет Lumina-DiMOO достичь более высокой эффективности выборки по сравнению с предыдущими авторегрессивными (AR) или гибридными AR-диффузионными парадигмами, а также успешно поддерживать широкий спектр мультимодальных задач, включая генерацию текста в изображения, генерацию изображений на основе изображений (например, редактирование изображений, генерация на основе объектов и восстановление изображений), а также понимание изображений. Lumina-DiMOO демонстрирует передовые результаты на множестве бенчмарков, превосходя существующие открытые унифицированные мультимодальные модели. Для стимулирования дальнейших исследований в области мультимодальных и дискретных диффузионных моделей мы публикуем наш код и контрольные точки для сообщества. Страница проекта: https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.
PDF472October 9, 2025