ChatPaper.aiChatPaper

SnapFusion: Модель диффузии для генерации изображений из текста на мобильных устройствах за две секунды

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

June 1, 2023
Авторы: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI

Аннотация

Модели диффузии для генерации изображений из текста способны создавать потрясающие изображения на основе естественных языковых описаний, которые могут соперничать с работами профессиональных художников и фотографов. Однако эти модели обладают большими размерами, сложной архитектурой сети и требуют десятков итераций для удаления шума, что делает их вычислительно затратными и медленными в работе. В результате для масштабированного использования моделей диффузии требуются высокопроизводительные графические процессоры и облачные вычисления. Это дорого и имеет последствия для конфиденциальности, особенно когда пользовательские данные передаются третьим сторонам. Чтобы преодолеть эти ограничения, мы представляем универсальный подход, который впервые позволяет запускать модели генерации изображений из текста на мобильных устройствах менее чем за 2 секунды. Мы достигаем этого за счет внедрения эффективной архитектуры сети и улучшения дистилляции шагов. В частности, мы предлагаем оптимизированную версию UNet, выявляя избыточность исходной модели и сокращая вычисления в декодере изображений с помощью дистилляции данных. Кроме того, мы улучшаем дистилляцию шагов, исследуя стратегии обучения и вводя регуляризацию на основе классификатора без управления. Наши обширные эксперименты на наборе данных MS-COCO показывают, что наша модель с 8 шагами удаления шума достигает лучших показателей FID и CLIP, чем Stable Diffusion v1.5 с 50 шагами. Наша работа демократизирует создание контента, предоставляя пользователям доступ к мощным моделям генерации изображений из текста.
English
Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations, making them computationally expensive and slow to run. As a result, high-end GPUs and cloud-based inference are required to run diffusion models at scale. This is costly and has privacy implications, especially when user data is sent to a third party. To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than 2 seconds. We achieve so by introducing efficient network architecture and improving step distillation. Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation. Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance. Our extensive experiments on MS-COCO show that our model with 8 denoising steps achieves better FID and CLIP scores than Stable Diffusion v1.5 with 50 steps. Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users.
PDF1513December 15, 2024