Lumina-Image 2.0: Um Framework Unificado e Eficiente para Geração de Imagens

Resumo

Apresentamos o Lumina-Image 2.0, um framework avançado de geração de imagens a partir de texto que alcança progressos significativos em comparação com trabalhos anteriores, como o Lumina-Next. O Lumina-Image 2.0 é construído sobre dois princípios fundamentais: (1) Unificação - ele adota uma arquitetura unificada (Unified Next-DiT) que trata tokens de texto e imagem como uma sequência conjunta, permitindo interações multimodais naturais e a expansão contínua de tarefas. Além disso, como sistemas de legendagem de alta qualidade podem fornecer pares de treinamento texto-imagem semanticamente alinhados, introduzimos um sistema de legendagem unificado, o Unified Captioner (UniCap), projetado especificamente para tarefas de geração de texto para imagem (T2I). O UniCap se destaca na geração de legendas abrangentes e precisas, acelerando a convergência e melhorando a aderência aos prompts. (2) Eficiência - para melhorar a eficiência do nosso modelo proposto, desenvolvemos estratégias de treinamento progressivo em múltiplos estágios e introduzimos técnicas de aceleração de inferência sem comprometer a qualidade da imagem. Avaliações extensas em benchmarks acadêmicos e arenas públicas de geração de texto para imagem demonstram que o Lumina-Image 2.0 oferece desempenhos robustos mesmo com apenas 2,6 bilhões de parâmetros, destacando sua escalabilidade e eficiência de design. Disponibilizamos nossos detalhes de treinamento, código e modelos em https://github.com/Alpha-VLLM/Lumina-Image-2.0.

English

We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

Lumina-Image 2.0: Um Framework Unificado e Eficiente para Geração de Imagens

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Resumo

Support