ChatPaper.aiChatPaper

LightGen: Эффективная генерация изображений с использованием дистилляции знаний и оптимизации прямых предпочтений

LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

March 11, 2025
Авторы: Xianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
cs.AI

Аннотация

Последние достижения в области генерации изображений из текста в основном опирались на обширные наборы данных и архитектуры с большим количеством параметров. Эти требования существенно ограничивают доступность для исследователей и практиков, не обладающих значительными вычислительными ресурсами. В данной статье мы представляем \model, эффективную парадигму обучения моделей генерации изображений, которая использует дистилляцию знаний (KD) и оптимизацию прямых предпочтений (DPO). Вдохновляясь успехом техник дистилляции данных, широко применяемых в многомодальных больших языковых моделях (MLLMs), LightGen переносит знания из современных (SOTA) моделей генерации изображений из текста в компактную архитектуру Masked Autoregressive (MAR) с всего лишь 0.7 миллиардами параметров. Используя компактный синтетический набор данных из всего 2 миллионов высококачественных изображений, сгенерированных из разнообразных описаний, мы демонстрируем, что разнообразие данных значительно важнее их объема для определения производительности модели. Эта стратегия существенно снижает вычислительные требования и сокращает время предварительного обучения с потенциально тысяч GPU-дней до всего лишь 88 GPU-дней. Кроме того, чтобы устранить присущие синтетическим данным недостатки, такие как плохие высокочастотные детали и пространственные неточности, мы интегрируем технику DPO, которая улучшает точность изображений и их позиционную точность. Комплексные эксперименты подтверждают, что LightGen достигает качества генерации изображений, сопоставимого с SOTA-моделями, при этом значительно сокращая вычислительные ресурсы и расширяя доступность для сред с ограниченными ресурсами. Код доступен по адресу https://github.com/XianfengWu01/LightGen.
English
Recent advances in text-to-image generation have primarily relied on extensive datasets and parameter-heavy architectures. These requirements severely limit accessibility for researchers and practitioners who lack substantial computational resources. In this paper, we introduce \model, an efficient training paradigm for image generation models that uses knowledge distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration from the success of data KD techniques widely adopted in Multi-Modal Large Language Models (MLLMs), LightGen distills knowledge from state-of-the-art (SOTA) text-to-image models into a compact Masked Autoregressive (MAR) architecture with only 0.7B parameters. Using a compact synthetic dataset of just 2M high-quality images generated from varied captions, we demonstrate that data diversity significantly outweighs data volume in determining model performance. This strategy dramatically reduces computational demands and reduces pre-training time from potentially thousands of GPU-days to merely 88 GPU-days. Furthermore, to address the inherent shortcomings of synthetic data, particularly poor high-frequency details and spatial inaccuracies, we integrate the DPO technique that refines image fidelity and positional accuracy. Comprehensive experiments confirm that LightGen achieves image generation quality comparable to SOTA models while significantly reducing computational resources and expanding accessibility for resource-constrained environments. Code is available at https://github.com/XianfengWu01/LightGen

Summary

AI-Generated Summary

PDF202March 12, 2025