ChatPaper.aiChatPaper

Lumina-Image 2.0: Een Uniform en Efficiënt Framework voor Beeldgeneratie

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

March 27, 2025
Auteurs: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
cs.AI

Samenvatting

We introduceren Lumina-Image 2.0, een geavanceerd tekst-naar-beeld generatieframework dat aanzienlijke vooruitgang boekt in vergelijking met eerder werk, Lumina-Next. Lumina-Image 2.0 is gebaseerd op twee belangrijke principes: (1) Unificatie - het neemt een uniforme architectuur aan (Unified Next-DiT) die tekst- en beeldtokens behandelt als een gezamenlijke reeks, waardoor natuurlijke cross-modale interacties mogelijk worden en naadloze taakuitbreiding wordt toegestaan. Bovendien, aangezien hoogwaardige captioners semantisch goed uitgelijnde tekst-beeld trainingsparen kunnen leveren, introduceren we een uniform captioningsysteem, Unified Captioner (UniCap), specifiek ontworpen voor T2I-generatietaken. UniCap blinkt uit in het genereren van uitgebreide en nauwkeurige captions, wat de convergentie versnelt en de promptnaleving verbetert. (2) Efficiëntie - om de efficiëntie van ons voorgestelde model te verbeteren, ontwikkelen we multi-staps progressieve trainingsstrategieën en introduceren we inferentieversnellings-technieken zonder in te leveren op beeldkwaliteit. Uitgebreide evaluaties op academische benchmarks en publieke tekst-naar-beeld arena's tonen aan dat Lumina-Image 2.0 sterke prestaties levert, zelfs met slechts 2,6B parameters, wat de schaalbaarheid en ontwerpefficiëntie benadrukt. We hebben onze trainingsdetails, code en modellen vrijgegeven op https://github.com/Alpha-VLLM/Lumina-Image-2.0.
English
We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Summary

AI-Generated Summary

PDF212March 28, 2025