LightGen: Efficiënte beeldgeneratie via kennisdistillatie en directe voorkeursoptimalisatie
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
March 11, 2025
Auteurs: Xianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeldgeneratie heeft voornamelijk vertrouwd op uitgebreide datasets en architecturen met veel parameters. Deze vereisten beperken de toegankelijkheid aanzienlijk voor onderzoekers en praktijkmensen die niet over aanzienlijke rekenkracht beschikken. In dit artikel introduceren we \model, een efficiënt trainingsparadigma voor beeldgeneratiemodellen dat gebruikmaakt van kennisdistillatie (KD) en Direct Preference Optimization (DPO). Geïnspireerd door het succes van data-KD-technieken die veel worden toegepast in Multi-Modale Large Language Models (MLLMs), distilleert LightGen kennis uit state-of-the-art (SOTA) tekst-naar-beeldmodellen in een compacte Masked Autoregressive (MAR)-architectuur met slechts 0,7B parameters. Met behulp van een compacte synthetische dataset van slechts 2M hoogwaardige afbeeldingen gegenereerd uit diverse bijschriften, tonen we aan dat datadiversiteit een veel grotere invloed heeft op modelprestaties dan datavolume. Deze strategie vermindert de rekenkundige eisen aanzienlijk en verkort de voorbereidingstijd van potentieel duizenden GPU-dagen tot slechts 88 GPU-dagen. Bovendien, om de inherente tekortkomingen van synthetische data aan te pakken, met name slechte hoogfrequente details en ruimtelijke onnauwkeurigheden, integreren we de DPO-techniek die de beeldkwaliteit en positionele nauwkeurigheid verfijnt. Uitgebreide experimenten bevestigen dat LightGen beeldgeneratiekwaliteit bereikt die vergelijkbaar is met SOTA-modellen, terwijl het rekenkundige middelen aanzienlijk reduceert en de toegankelijkheid voor omgevingen met beperkte middelen vergroot. Code is beschikbaar op https://github.com/XianfengWu01/LightGen.
English
Recent advances in text-to-image generation have primarily relied on
extensive datasets and parameter-heavy architectures. These requirements
severely limit accessibility for researchers and practitioners who lack
substantial computational resources. In this paper, we introduce \model, an
efficient training paradigm for image generation models that uses knowledge
distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration
from the success of data KD techniques widely adopted in Multi-Modal Large
Language Models (MLLMs), LightGen distills knowledge from state-of-the-art
(SOTA) text-to-image models into a compact Masked Autoregressive (MAR)
architecture with only 0.7B parameters. Using a compact synthetic dataset of
just 2M high-quality images generated from varied captions, we demonstrate
that data diversity significantly outweighs data volume in determining model
performance. This strategy dramatically reduces computational demands and
reduces pre-training time from potentially thousands of GPU-days to merely 88
GPU-days. Furthermore, to address the inherent shortcomings of synthetic data,
particularly poor high-frequency details and spatial inaccuracies, we integrate
the DPO technique that refines image fidelity and positional accuracy.
Comprehensive experiments confirm that LightGen achieves image generation
quality comparable to SOTA models while significantly reducing computational
resources and expanding accessibility for resource-constrained environments.
Code is available at https://github.com/XianfengWu01/LightGenSummary
AI-Generated Summary