LightGen: 지식 증류와 직접 선호 최적화를 통한 효율적인 이미지 생성
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
March 11, 2025
저자: Xianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
cs.AI
초록
최근 텍스트-이미지 생성 분야의 발전은 주로 방대한 데이터셋과 많은 매개변수를 가진 아키텍처에 의존해 왔습니다. 이러한 요구 사항은 상당한 컴퓨팅 자원을 갖추지 못한 연구자와 실무자들에게 접근성을 심각하게 제한합니다. 본 논문에서는 지식 증류(Knowledge Distillation, KD)와 직접 선호 최적화(Direct Preference Optimization, DPO)를 활용한 효율적인 이미지 생성 모델 훈련 패러다임인 \model을 소개합니다. 다중 모달 대형 언어 모델(Multi-Modal Large Language Models, MLLMs)에서 널리 채택된 데이터 KD 기술의 성공에서 영감을 받아, LightGen은 최첨단(SOTA) 텍스트-이미지 모델의 지식을 단 0.7B 매개변수를 가진 간결한 마스크드 자기회귀(Masked Autoregressive, MAR) 아키텍처로 증류합니다. 다양한 캡션에서 생성된 단 2M개의 고품질 이미지로 구성된 간결한 합성 데이터셋을 사용하여, 데이터 다양성이 모델 성능을 결정하는 데 있어 데이터 양보다 훨씬 중요함을 입증합니다. 이 전략은 컴퓨팅 요구 사항을 크게 줄이고, 사전 훈련 시간을 잠재적으로 수천 GPU-일에서 단 88 GPU-일로 단축합니다. 또한, 합성 데이터의 고주파 세부 사항과 공간적 정확도 부족과 같은 고유한 단점을 해결하기 위해, DPO 기술을 통합하여 이미지 충실도와 위치 정확도를 개선합니다. 포괄적인 실험을 통해 LightGen이 SOTA 모델과 비슷한 이미지 생성 품질을 달성하면서도 컴퓨팅 자원을 크게 절약하고, 자원이 제한된 환경에서의 접근성을 확장함을 확인했습니다. 코드는 https://github.com/XianfengWu01/LightGen에서 확인할 수 있습니다.
English
Recent advances in text-to-image generation have primarily relied on
extensive datasets and parameter-heavy architectures. These requirements
severely limit accessibility for researchers and practitioners who lack
substantial computational resources. In this paper, we introduce \model, an
efficient training paradigm for image generation models that uses knowledge
distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration
from the success of data KD techniques widely adopted in Multi-Modal Large
Language Models (MLLMs), LightGen distills knowledge from state-of-the-art
(SOTA) text-to-image models into a compact Masked Autoregressive (MAR)
architecture with only 0.7B parameters. Using a compact synthetic dataset of
just 2M high-quality images generated from varied captions, we demonstrate
that data diversity significantly outweighs data volume in determining model
performance. This strategy dramatically reduces computational demands and
reduces pre-training time from potentially thousands of GPU-days to merely 88
GPU-days. Furthermore, to address the inherent shortcomings of synthetic data,
particularly poor high-frequency details and spatial inaccuracies, we integrate
the DPO technique that refines image fidelity and positional accuracy.
Comprehensive experiments confirm that LightGen achieves image generation
quality comparable to SOTA models while significantly reducing computational
resources and expanding accessibility for resource-constrained environments.
Code is available at https://github.com/XianfengWu01/LightGenSummary
AI-Generated Summary