ChatPaper.aiChatPaper

LightGen: Generación eficiente de imágenes mediante destilación de conocimiento y optimización directa de preferencias

LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

March 11, 2025
Autores: Xianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
cs.AI

Resumen

Los avances recientes en la generación de texto a imagen se han basado principalmente en conjuntos de datos extensos y arquitecturas con un gran número de parámetros. Estos requisitos limitan severamente la accesibilidad para investigadores y profesionales que carecen de recursos computacionales sustanciales. En este artículo, presentamos \model, un paradigma de entrenamiento eficiente para modelos de generación de imágenes que utiliza la destilación de conocimiento (KD, por sus siglas en inglés) y la Optimización Directa de Preferencias (DPO). Inspirándonos en el éxito de las técnicas de KD de datos ampliamente adoptadas en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), LightGen destila conocimiento de modelos de texto a imagen de última generación (SOTA) en una arquitectura Autoregresiva Enmascarada (MAR) compacta con solo 0.7 mil millones de parámetros. Utilizando un conjunto de datos sintético compacto de solo 2 millones de imágenes de alta calidad generadas a partir de variados textos descriptivos, demostramos que la diversidad de datos supera significativamente el volumen de datos en la determinación del rendimiento del modelo. Esta estrategia reduce drásticamente las demandas computacionales y disminuye el tiempo de pre-entrenamiento de potencialmente miles de días-GPU a apenas 88 días-GPU. Además, para abordar las limitaciones inherentes de los datos sintéticos, particularmente los detalles de alta frecuencia deficientes y las inexactitudes espaciales, integramos la técnica DPO que refina la fidelidad de la imagen y la precisión posicional. Experimentos exhaustivos confirman que LightGen logra una calidad de generación de imágenes comparable a los modelos SOTA, mientras reduce significativamente los recursos computacionales y amplía la accesibilidad en entornos con recursos limitados. El código está disponible en https://github.com/XianfengWu01/LightGen.
English
Recent advances in text-to-image generation have primarily relied on extensive datasets and parameter-heavy architectures. These requirements severely limit accessibility for researchers and practitioners who lack substantial computational resources. In this paper, we introduce \model, an efficient training paradigm for image generation models that uses knowledge distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration from the success of data KD techniques widely adopted in Multi-Modal Large Language Models (MLLMs), LightGen distills knowledge from state-of-the-art (SOTA) text-to-image models into a compact Masked Autoregressive (MAR) architecture with only 0.7B parameters. Using a compact synthetic dataset of just 2M high-quality images generated from varied captions, we demonstrate that data diversity significantly outweighs data volume in determining model performance. This strategy dramatically reduces computational demands and reduces pre-training time from potentially thousands of GPU-days to merely 88 GPU-days. Furthermore, to address the inherent shortcomings of synthetic data, particularly poor high-frequency details and spatial inaccuracies, we integrate the DPO technique that refines image fidelity and positional accuracy. Comprehensive experiments confirm that LightGen achieves image generation quality comparable to SOTA models while significantly reducing computational resources and expanding accessibility for resource-constrained environments. Code is available at https://github.com/XianfengWu01/LightGen
PDF202March 12, 2025