LightGen : Génération efficace d'images par distillation de connaissances et optimisation directe des préférences
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
March 11, 2025
Auteurs: Xianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
cs.AI
Résumé
Les récents progrès dans la génération d'images à partir de texte reposent principalement sur des jeux de données étendus et des architectures riches en paramètres. Ces exigences limitent considérablement l'accessibilité pour les chercheurs et praticiens disposant de ressources computationnelles limitées. Dans cet article, nous présentons \model, un paradigme d'entraînement efficace pour les modèles de génération d'images qui utilise la distillation de connaissances (KD) et l'optimisation directe des préférences (DPO). S'inspirant du succès des techniques de KD de données largement adoptées dans les modèles de langage multi-modaux de grande taille (MLLMs), LightGen distille les connaissances des modèles de pointe (SOTA) de génération d'images à partir de texte dans une architecture compacte de type Autoregressive Masqué (MAR) avec seulement 0,7 milliard de paramètres. En utilisant un jeu de données synthétique compact de seulement 2 millions d'images de haute qualité générées à partir de descriptions variées, nous démontrons que la diversité des données influence significativement plus la performance du modèle que le volume de données. Cette stratégie réduit considérablement les exigences computationnelles et diminue le temps de pré-entraînement de potentiellement des milliers de jours-GPU à seulement 88 jours-GPU. De plus, pour pallier les lacunes inhérentes aux données synthétiques, notamment les détails haute fréquence de mauvaise qualité et les inexactitudes spatiales, nous intégrons la technique DPO qui affine la fidélité des images et la précision positionnelle. Des expériences approfondies confirment que LightGen atteint une qualité de génération d'images comparable aux modèles SOTA tout en réduisant significativement les ressources computationnelles et en élargissant l'accessibilité pour les environnements à ressources limitées. Le code est disponible à l'adresse suivante : https://github.com/XianfengWu01/LightGen.
English
Recent advances in text-to-image generation have primarily relied on
extensive datasets and parameter-heavy architectures. These requirements
severely limit accessibility for researchers and practitioners who lack
substantial computational resources. In this paper, we introduce \model, an
efficient training paradigm for image generation models that uses knowledge
distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration
from the success of data KD techniques widely adopted in Multi-Modal Large
Language Models (MLLMs), LightGen distills knowledge from state-of-the-art
(SOTA) text-to-image models into a compact Masked Autoregressive (MAR)
architecture with only 0.7B parameters. Using a compact synthetic dataset of
just 2M high-quality images generated from varied captions, we demonstrate
that data diversity significantly outweighs data volume in determining model
performance. This strategy dramatically reduces computational demands and
reduces pre-training time from potentially thousands of GPU-days to merely 88
GPU-days. Furthermore, to address the inherent shortcomings of synthetic data,
particularly poor high-frequency details and spatial inaccuracies, we integrate
the DPO technique that refines image fidelity and positional accuracy.
Comprehensive experiments confirm that LightGen achieves image generation
quality comparable to SOTA models while significantly reducing computational
resources and expanding accessibility for resource-constrained environments.
Code is available at https://github.com/XianfengWu01/LightGenSummary
AI-Generated Summary