Lumina-Image 2.0 : Un Cadre Unifié et Efficace pour la Génération d'Images
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework
March 27, 2025
Auteurs: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
cs.AI
Résumé
Nous présentons Lumina-Image 2.0, un cadre avancé de génération d'images à partir de texte qui marque une avancée significative par rapport au travail précédent, Lumina-Next. Lumina-Image 2.0 repose sur deux principes clés : (1) Unification - il adopte une architecture unifiée (Unified Next-DiT) qui traite les tokens de texte et d'image comme une séquence conjointe, permettant des interactions intermodales naturelles et une expansion fluide des tâches. Par ailleurs, puisque des systèmes de légendage de haute qualité peuvent fournir des paires texte-image sémantiquement bien alignées, nous introduisons un système de légendage unifié, Unified Captioner (UniCap), spécialement conçu pour les tâches de génération T2I. UniCap excelle dans la génération de légendes complètes et précises, accélérant la convergence et améliorant l'adhésion aux prompts. (2) Efficacité - pour améliorer l'efficacité de notre modèle proposé, nous développons des stratégies d'entraînement progressif multi-étapes et introduisons des techniques d'accélération de l'inférence sans compromettre la qualité des images. Des évaluations approfondies sur des benchmarks académiques et des arènes publiques de génération texte-image montrent que Lumina-Image 2.0 offre des performances solides avec seulement 2,6 milliards de paramètres, mettant en avant son évolutivité et son efficacité de conception. Nous avons publié nos détails d'entraînement, notre code et nos modèles sur https://github.com/Alpha-VLLM/Lumina-Image-2.0.
English
We introduce Lumina-Image 2.0, an advanced text-to-image generation framework
that achieves significant progress compared to previous work, Lumina-Next.
Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts
a unified architecture (Unified Next-DiT) that treats text and image tokens as
a joint sequence, enabling natural cross-modal interactions and allowing
seamless task expansion. Besides, since high-quality captioners can provide
semantically well-aligned text-image training pairs, we introduce a unified
captioning system, Unified Captioner (UniCap), specifically designed for T2I
generation tasks. UniCap excels at generating comprehensive and accurate
captions, accelerating convergence and enhancing prompt adherence. (2)
Efficiency - to improve the efficiency of our proposed model, we develop
multi-stage progressive training strategies and introduce inference
acceleration techniques without compromising image quality. Extensive
evaluations on academic benchmarks and public text-to-image arenas show that
Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters,
highlighting its scalability and design efficiency. We have released our
training details, code, and models at
https://github.com/Alpha-VLLM/Lumina-Image-2.0.Summary
AI-Generated Summary