ChatPaper.aiChatPaper

Lumina-Image 2.0: Унифицированная и эффективная структура для генерации изображений

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

March 27, 2025
Авторы: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
cs.AI

Аннотация

Представляем Lumina-Image 2.0 — усовершенствованную систему генерации изображений по тексту, которая демонстрирует значительный прогресс по сравнению с предыдущей версией, Lumina-Next. Lumina-Image 2.0 основана на двух ключевых принципах: (1) Унификация — она использует унифицированную архитектуру (Unified Next-DiT), которая рассматривает текстовые и визуальные токены как единую последовательность, обеспечивая естественное взаимодействие между модальностями и позволяя легко расширять функциональность. Кроме того, поскольку высококачественные системы описания изображений могут предоставить семантически согласованные пары текст-изображение для обучения, мы внедрили унифицированную систему описания, Unified Captioner (UniCap), специально разработанную для задач генерации изображений по тексту. UniCap превосходно справляется с созданием детальных и точных описаний, ускоряя сходимость обучения и улучшая соответствие генерируемых изображений запросам. (2) Эффективность — для повышения эффективности модели мы разработали многоэтапные стратегии прогрессивного обучения и внедрили методы ускорения вывода без ущерба для качества изображений. Масштабные оценки на академических бенчмарках и публичных платформах для генерации изображений по тексту показывают, что Lumina-Image 2.0 демонстрирует выдающиеся результаты даже при использовании всего 2,6 миллиардов параметров, подчеркивая её масштабируемость и эффективность проектирования. Мы опубликовали детали обучения, код и модели на сайте https://github.com/Alpha-VLLM/Lumina-Image-2.0.
English
We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Summary

AI-Generated Summary

PDF212March 28, 2025