Lumina-Image 2.0: Een Uniform en Efficiënt Framework voor Beeldgeneratie

Samenvatting

We introduceren Lumina-Image 2.0, een geavanceerd tekst-naar-beeld generatieframework dat aanzienlijke vooruitgang boekt in vergelijking met eerder werk, Lumina-Next. Lumina-Image 2.0 is gebaseerd op twee belangrijke principes: (1) Unificatie - het neemt een uniforme architectuur aan (Unified Next-DiT) die tekst- en beeldtokens behandelt als een gezamenlijke reeks, waardoor natuurlijke cross-modale interacties mogelijk worden en naadloze taakuitbreiding wordt toegestaan. Bovendien, aangezien hoogwaardige captioners semantisch goed uitgelijnde tekst-beeld trainingsparen kunnen leveren, introduceren we een uniform captioningsysteem, Unified Captioner (UniCap), specifiek ontworpen voor T2I-generatietaken. UniCap blinkt uit in het genereren van uitgebreide en nauwkeurige captions, wat de convergentie versnelt en de promptnaleving verbetert. (2) Efficiëntie - om de efficiëntie van ons voorgestelde model te verbeteren, ontwikkelen we multi-staps progressieve trainingsstrategieën en introduceren we inferentieversnellings-technieken zonder in te leveren op beeldkwaliteit. Uitgebreide evaluaties op academische benchmarks en publieke tekst-naar-beeld arena's tonen aan dat Lumina-Image 2.0 sterke prestaties levert, zelfs met slechts 2,6B parameters, wat de schaalbaarheid en ontwerpefficiëntie benadrukt. We hebben onze trainingsdetails, code en modellen vrijgegeven op https://github.com/Alpha-VLLM/Lumina-Image-2.0.

English

We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Lumina-Image 2.0: Een Uniform en Efficiënt Framework voor Beeldgeneratie

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Samenvatting

Support