LightGen: Geração Eficiente de Imagens por meio de Distilação de Conhecimento e Otimização Direta de Preferências
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
March 11, 2025
Autores: Xianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
cs.AI
Resumo
Os avanços recentes na geração de texto para imagem têm se baseado principalmente em conjuntos de dados extensos e arquiteturas com grande quantidade de parâmetros. Esses requisitos limitam severamente a acessibilidade para pesquisadores e profissionais que não possuem recursos computacionais substanciais. Neste artigo, apresentamos o \model, um paradigma de treinamento eficiente para modelos de geração de imagens que utiliza a técnica de destilação de conhecimento (KD, do inglês Knowledge Distillation) e a Otimização Direta de Preferências (DPO, do inglês Direct Preference Optimization). Inspirados pelo sucesso das técnicas de KD de dados amplamente adotadas em Modelos de Linguagem Multimodais de Grande Escala (MLLMs, do inglês Multi-Modal Large Language Models), o LightGen destila conhecimento de modelos state-of-the-art (SOTA) de texto para imagem em uma arquitetura compacta de Autoregressão Mascarada (MAR, do inglês Masked Autoregressive) com apenas 0,7 bilhão de parâmetros. Utilizando um conjunto de dados sintético compacto de apenas 2 milhões de imagens de alta qualidade geradas a partir de legendas variadas, demonstramos que a diversidade dos dados supera significativamente o volume de dados na determinação do desempenho do modelo. Essa estratégia reduz drasticamente as demandas computacionais e diminui o tempo de pré-treinamento de potencialmente milhares de dias de GPU para meros 88 dias de GPU. Além disso, para abordar as deficiências inerentes aos dados sintéticos, particularmente detalhes de alta frequência pobres e imprecisões espaciais, integramos a técnica DPO que refina a fidelidade da imagem e a precisão posicional. Experimentos abrangentes confirmam que o LightGen alcança uma qualidade de geração de imagem comparável aos modelos SOTA, enquanto reduz significativamente os recursos computacionais e amplia a acessibilidade para ambientes com recursos limitados. O código está disponível em https://github.com/XianfengWu01/LightGen.
English
Recent advances in text-to-image generation have primarily relied on
extensive datasets and parameter-heavy architectures. These requirements
severely limit accessibility for researchers and practitioners who lack
substantial computational resources. In this paper, we introduce \model, an
efficient training paradigm for image generation models that uses knowledge
distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration
from the success of data KD techniques widely adopted in Multi-Modal Large
Language Models (MLLMs), LightGen distills knowledge from state-of-the-art
(SOTA) text-to-image models into a compact Masked Autoregressive (MAR)
architecture with only 0.7B parameters. Using a compact synthetic dataset of
just 2M high-quality images generated from varied captions, we demonstrate
that data diversity significantly outweighs data volume in determining model
performance. This strategy dramatically reduces computational demands and
reduces pre-training time from potentially thousands of GPU-days to merely 88
GPU-days. Furthermore, to address the inherent shortcomings of synthetic data,
particularly poor high-frequency details and spatial inaccuracies, we integrate
the DPO technique that refines image fidelity and positional accuracy.
Comprehensive experiments confirm that LightGen achieves image generation
quality comparable to SOTA models while significantly reducing computational
resources and expanding accessibility for resource-constrained environments.
Code is available at https://github.com/XianfengWu01/LightGenSummary
AI-Generated Summary