Lumina-Image 2.0: Унифицированная и эффективная структура для генерации изображений

Аннотация

Представляем Lumina-Image 2.0 — усовершенствованную систему генерации изображений по тексту, которая демонстрирует значительный прогресс по сравнению с предыдущей версией, Lumina-Next. Lumina-Image 2.0 основана на двух ключевых принципах: (1) Унификация — она использует унифицированную архитектуру (Unified Next-DiT), которая рассматривает текстовые и визуальные токены как единую последовательность, обеспечивая естественное взаимодействие между модальностями и позволяя легко расширять функциональность. Кроме того, поскольку высококачественные системы описания изображений могут предоставить семантически согласованные пары текст-изображение для обучения, мы внедрили унифицированную систему описания, Unified Captioner (UniCap), специально разработанную для задач генерации изображений по тексту. UniCap превосходно справляется с созданием детальных и точных описаний, ускоряя сходимость обучения и улучшая соответствие генерируемых изображений запросам. (2) Эффективность — для повышения эффективности модели мы разработали многоэтапные стратегии прогрессивного обучения и внедрили методы ускорения вывода без ущерба для качества изображений. Масштабные оценки на академических бенчмарках и публичных платформах для генерации изображений по тексту показывают, что Lumina-Image 2.0 демонстрирует выдающиеся результаты даже при использовании всего 2,6 миллиардов параметров, подчеркивая её масштабируемость и эффективность проектирования. Мы опубликовали детали обучения, код и модели на сайте https://github.com/Alpha-VLLM/Lumina-Image-2.0.

English

We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Lumina-Image 2.0: Унифицированная и эффективная структура для генерации изображений

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Аннотация

Support