Emu: Miglioramento dei Modelli di Generazione di Immagini Utilizzando Aghi Fotogenici in un Pagliaio
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
September 27, 2023
Autori: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI
Abstract
L'addestramento di modelli testo-immagine con coppie immagine-testo su scala web consente la generazione di un'ampia gamma di concetti visivi a partire dal testo. Tuttavia, questi modelli pre-addestrati spesso incontrano difficoltà nella generazione di immagini altamente estetiche. Ciò crea la necessità di un allineamento estetico post pre-addestramento. In questo articolo, proponiamo il quality-tuning per guidare efficacemente un modello pre-addestrato a generare esclusivamente immagini altamente visivamente accattivanti, mantenendo al contempo la generalità attraverso i concetti visivi. La nostra intuizione chiave è che il fine-tuning supervisionato con un insieme sorprendentemente piccolo ma estremamente visivamente accattivante di immagini può migliorare significativamente la qualità della generazione. Pre-addestriamo un modello di diffusione latente su 1,1 miliardi di coppie immagine-testo e lo ottimizziamo con solo poche migliaia di immagini di alta qualità selezionate con cura. Il modello risultante, Emu, raggiunge un tasso di vittoria dell'82,9% rispetto alla sua controparte solo pre-addestrata. Rispetto allo stato dell'arte SDXLv1.0, Emu è preferito il 68,4% e il 71,3% delle volte per l'appeal visivo sui benchmark standard PartiPrompts e sul nostro Open User Input basato sull'uso reale dei modelli testo-immagine. Inoltre, dimostriamo che il quality-tuning è un approccio generico efficace anche per altre architetture, inclusi i modelli di diffusione pixel e i modelli trasformatori generativi mascherati.
English
Training text-to-image models with web scale image-text pairs enables the
generation of a wide range of visual concepts from text. However, these
pre-trained models often face challenges when it comes to generating highly
aesthetic images. This creates the need for aesthetic alignment post
pre-training. In this paper, we propose quality-tuning to effectively guide a
pre-trained model to exclusively generate highly visually appealing images,
while maintaining generality across visual concepts. Our key insight is that
supervised fine-tuning with a set of surprisingly small but extremely visually
appealing images can significantly improve the generation quality. We pre-train
a latent diffusion model on 1.1 billion image-text pairs and fine-tune it
with only a few thousand carefully selected high-quality images. The resulting
model, Emu, achieves a win rate of 82.9% compared with its pre-trained only
counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred
68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts
and our Open User Input benchmark based on the real-world usage of
text-to-image models. In addition, we show that quality-tuning is a generic
approach that is also effective for other architectures, including pixel
diffusion and masked generative transformer models.