ChatPaper.aiChatPaper

Lumina-Image 2.0: Um Framework Unificado e Eficiente para Geração de Imagens

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

March 27, 2025
Autores: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
cs.AI

Resumo

Apresentamos o Lumina-Image 2.0, um framework avançado de geração de imagens a partir de texto que alcança progressos significativos em comparação com trabalhos anteriores, como o Lumina-Next. O Lumina-Image 2.0 é construído sobre dois princípios fundamentais: (1) Unificação - ele adota uma arquitetura unificada (Unified Next-DiT) que trata tokens de texto e imagem como uma sequência conjunta, permitindo interações multimodais naturais e a expansão contínua de tarefas. Além disso, como sistemas de legendagem de alta qualidade podem fornecer pares de treinamento texto-imagem semanticamente alinhados, introduzimos um sistema de legendagem unificado, o Unified Captioner (UniCap), projetado especificamente para tarefas de geração de texto para imagem (T2I). O UniCap se destaca na geração de legendas abrangentes e precisas, acelerando a convergência e melhorando a aderência aos prompts. (2) Eficiência - para melhorar a eficiência do nosso modelo proposto, desenvolvemos estratégias de treinamento progressivo em múltiplos estágios e introduzimos técnicas de aceleração de inferência sem comprometer a qualidade da imagem. Avaliações extensas em benchmarks acadêmicos e arenas públicas de geração de texto para imagem demonstram que o Lumina-Image 2.0 oferece desempenhos robustos mesmo com apenas 2,6 bilhões de parâmetros, destacando sua escalabilidade e eficiência de design. Disponibilizamos nossos detalhes de treinamento, código e modelos em https://github.com/Alpha-VLLM/Lumina-Image-2.0.
English
We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Summary

AI-Generated Summary

PDF212March 28, 2025