Emu: Улучшение моделей генерации изображений с использованием фотогеничных "иголок в стоге сена"
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
September 27, 2023
Авторы: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI
Аннотация
Обучение моделей генерации изображений по тексту на основе масштабных наборов пар "изображение-текст" из интернета позволяет генерировать широкий спектр визуальных концепций по текстовым описаниям. Однако такие предварительно обученные модели часто сталкиваются с трудностями при создании изображений с высокой эстетической привлекательностью. Это создает необходимость в дополнительной настройке для достижения эстетического соответствия после предварительного обучения. В данной работе мы предлагаем метод "качественной настройки" (quality-tuning), который эффективно направляет предварительно обученную модель на генерацию исключительно визуально привлекательных изображений, сохраняя при этом обобщаемость для различных визуальных концепций. Наше ключевое наблюдение заключается в том, что контролируемая дообучение на наборе удивительно малого, но чрезвычайно визуально привлекательного контента может значительно улучшить качество генерации. Мы предварительно обучаем латентную диффузионную модель на 1,1 миллиарда пар "изображение-текст" и дообучаем её всего на нескольких тысячах тщательно отобранных высококачественных изображений. Полученная модель, Emu, демонстрирует показатель предпочтения в 82,9% по сравнению с её версией без дообучения. По сравнению с современной моделью SDXLv1.0, Emu предпочитается в 68,4% и 71,3% случаев по визуальной привлекательности на стандартном наборе PartiPrompts и на нашем бенчмарке Open User Input, основанном на реальном использовании моделей генерации изображений по тексту. Кроме того, мы показываем, что качественная настройка является универсальным подходом, который также эффективен для других архитектур, включая пиксельные диффузионные модели и маскированные генеративные трансформеры.
English
Training text-to-image models with web scale image-text pairs enables the
generation of a wide range of visual concepts from text. However, these
pre-trained models often face challenges when it comes to generating highly
aesthetic images. This creates the need for aesthetic alignment post
pre-training. In this paper, we propose quality-tuning to effectively guide a
pre-trained model to exclusively generate highly visually appealing images,
while maintaining generality across visual concepts. Our key insight is that
supervised fine-tuning with a set of surprisingly small but extremely visually
appealing images can significantly improve the generation quality. We pre-train
a latent diffusion model on 1.1 billion image-text pairs and fine-tune it
with only a few thousand carefully selected high-quality images. The resulting
model, Emu, achieves a win rate of 82.9% compared with its pre-trained only
counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred
68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts
and our Open User Input benchmark based on the real-world usage of
text-to-image models. In addition, we show that quality-tuning is a generic
approach that is also effective for other architectures, including pixel
diffusion and masked generative transformer models.