Emu: Verbesserung von Bildgenerierungsmodellen durch die Nutzung fotogener Nadeln im Heuhaufen
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
September 27, 2023
Autoren: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI
Zusammenfassung
Das Training von Text-zu-Bild-Modellen mit webweiten Bild-Text-Paaren ermöglicht die Generierung einer breiten Palette visueller Konzepte aus Text. Diese vortrainierten Modelle stehen jedoch oft vor Herausforderungen, wenn es darum geht, hochästhetische Bilder zu erzeugen. Dies führt zur Notwendigkeit einer ästhetischen Ausrichtung nach dem Vortraining. In diesem Artikel schlagen wir Quality-Tuning vor, um ein vortrainiertes Modell effektiv dazu zu führen, ausschließlich hochvisuell ansprechende Bilder zu generieren, während die Allgemeingültigkeit über visuelle Konzepte hinweg erhalten bleibt. Unsere zentrale Erkenntnis ist, dass ein überwachtes Feinabstimmen mit einer überraschend kleinen, aber extrem visuell ansprechenden Bildersammlung die Generierungsqualität erheblich verbessern kann. Wir trainieren ein latentes Diffusionsmodell mit 1,1 Milliarden Bild-Text-Paaren vor und stimmen es mit nur wenigen tausend sorgfältig ausgewählten hochwertigen Bildern fein. Das resultierende Modell, Emu, erreicht eine Gewinnrate von 82,9 % im Vergleich zu seinem nur vortrainierten Gegenstück. Im Vergleich zum State-of-the-Art-Modell SDXLv1.0 wird Emu in 68,4 % und 71,3 % der Fälle hinsichtlich visueller Anziehungskraft auf den Standard-PartiPrompts und unserem Open User Input-Benchmark, basierend auf der realen Nutzung von Text-zu-Bild-Modellen, bevorzugt. Darüber hinaus zeigen wir, dass Quality-Tuning ein generischer Ansatz ist, der auch für andere Architekturen effektiv ist, einschließlich Pixel-Diffusions- und maskierten generativen Transformermodellen.
English
Training text-to-image models with web scale image-text pairs enables the
generation of a wide range of visual concepts from text. However, these
pre-trained models often face challenges when it comes to generating highly
aesthetic images. This creates the need for aesthetic alignment post
pre-training. In this paper, we propose quality-tuning to effectively guide a
pre-trained model to exclusively generate highly visually appealing images,
while maintaining generality across visual concepts. Our key insight is that
supervised fine-tuning with a set of surprisingly small but extremely visually
appealing images can significantly improve the generation quality. We pre-train
a latent diffusion model on 1.1 billion image-text pairs and fine-tune it
with only a few thousand carefully selected high-quality images. The resulting
model, Emu, achieves a win rate of 82.9% compared with its pre-trained only
counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred
68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts
and our Open User Input benchmark based on the real-world usage of
text-to-image models. In addition, we show that quality-tuning is a generic
approach that is also effective for other architectures, including pixel
diffusion and masked generative transformer models.