Lumina-DiMOO: Универсальная диффузионная модель большого языка для многомодальной генерации и понимания

Аннотация

Мы представляем Lumina-DiMOO — открытую базовую модель для бесшовной генерации и понимания мультимодальных данных. Lumina-DiMOO выделяется среди предыдущих унифицированных моделей благодаря использованию полностью дискретного диффузионного моделирования для обработки входных и выходных данных в различных модальностях. Этот инновационный подход позволяет Lumina-DiMOO достичь более высокой эффективности выборки по сравнению с предыдущими авторегрессивными (AR) или гибридными AR-диффузионными парадигмами, а также успешно поддерживать широкий спектр мультимодальных задач, включая генерацию текста в изображения, генерацию изображений на основе изображений (например, редактирование изображений, генерация на основе объектов и восстановление изображений), а также понимание изображений. Lumina-DiMOO демонстрирует передовые результаты на множестве бенчмарков, превосходя существующие открытые унифицированные мультимодальные модели. Для стимулирования дальнейших исследований в области мультимодальных и дискретных диффузионных моделей мы публикуем наш код и контрольные точки для сообщества. Страница проекта: https://synbol.github.io/Lumina-DiMOO.

English

We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.

Lumina-DiMOO: Универсальная диффузионная модель большого языка для многомодальной генерации и понимания

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Аннотация

Support