LightGen : Génération efficace d'images par distillation de connaissances et optimisation directe des préférences

papers.abstract

Les récents progrès dans la génération d'images à partir de texte reposent principalement sur des jeux de données étendus et des architectures riches en paramètres. Ces exigences limitent considérablement l'accessibilité pour les chercheurs et praticiens disposant de ressources computationnelles limitées. Dans cet article, nous présentons \model, un paradigme d'entraînement efficace pour les modèles de génération d'images qui utilise la distillation de connaissances (KD) et l'optimisation directe des préférences (DPO). S'inspirant du succès des techniques de KD de données largement adoptées dans les modèles de langage multi-modaux de grande taille (MLLMs), LightGen distille les connaissances des modèles de pointe (SOTA) de génération d'images à partir de texte dans une architecture compacte de type Autoregressive Masqué (MAR) avec seulement 0,7 milliard de paramètres. En utilisant un jeu de données synthétique compact de seulement 2 millions d'images de haute qualité générées à partir de descriptions variées, nous démontrons que la diversité des données influence significativement plus la performance du modèle que le volume de données. Cette stratégie réduit considérablement les exigences computationnelles et diminue le temps de pré-entraînement de potentiellement des milliers de jours-GPU à seulement 88 jours-GPU. De plus, pour pallier les lacunes inhérentes aux données synthétiques, notamment les détails haute fréquence de mauvaise qualité et les inexactitudes spatiales, nous intégrons la technique DPO qui affine la fidélité des images et la précision positionnelle. Des expériences approfondies confirment que LightGen atteint une qualité de génération d'images comparable aux modèles SOTA tout en réduisant significativement les ressources computationnelles et en élargissant l'accessibilité pour les environnements à ressources limitées. Le code est disponible à l'adresse suivante : https://github.com/XianfengWu01/LightGen.

English

Recent advances in text-to-image generation have primarily relied on extensive datasets and parameter-heavy architectures. These requirements severely limit accessibility for researchers and practitioners who lack substantial computational resources. In this paper, we introduce \model, an efficient training paradigm for image generation models that uses knowledge distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration from the success of data KD techniques widely adopted in Multi-Modal Large Language Models (MLLMs), LightGen distills knowledge from state-of-the-art (SOTA) text-to-image models into a compact Masked Autoregressive (MAR) architecture with only 0.7B parameters. Using a compact synthetic dataset of just 2M high-quality images generated from varied captions, we demonstrate that data diversity significantly outweighs data volume in determining model performance. This strategy dramatically reduces computational demands and reduces pre-training time from potentially thousands of GPU-days to merely 88 GPU-days. Furthermore, to address the inherent shortcomings of synthetic data, particularly poor high-frequency details and spatial inaccuracies, we integrate the DPO technique that refines image fidelity and positional accuracy. Comprehensive experiments confirm that LightGen achieves image generation quality comparable to SOTA models while significantly reducing computational resources and expanding accessibility for resource-constrained environments. Code is available at https://github.com/XianfengWu01/LightGen

LightGen : Génération efficace d'images par distillation de connaissances et optimisation directe des préférences

LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

papers.abstract

Support