ChatPaper.aiChatPaper

Emu: Verbetering van beeldgeneratiemodellen met behulp van fotogenieke naalden in een hooiberg

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

September 27, 2023
Auteurs: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI

Samenvatting

Het trainen van tekst-naar-beeldmodellen met web-schaal beeld-tekstparen maakt het mogelijk om een breed scala aan visuele concepten uit tekst te genereren. Deze vooraf getrainde modellen hebben echter vaak moeite met het genereren van zeer esthetische beelden. Dit creëert de behoefte aan esthetische afstemming na de voorafgaande training. In dit artikel stellen we kwaliteitsafstemming voor om een vooraf getraind model effectief te begeleiden bij het uitsluitend genereren van zeer visueel aantrekkelijke beelden, terwijl de algemeenheid over visuele concepten behouden blijft. Onze belangrijkste inzicht is dat supervised fine-tuning met een verrassend kleine maar extreem visueel aantrekkelijke set beelden de generatiekwaliteit aanzienlijk kan verbeteren. We trainen een latent diffusiemodel vooraf op 1,1 miljard beeld-tekstparen en stemmen het af met slechts enkele duizenden zorgvuldig geselecteerde hoogwaardige beelden. Het resulterende model, Emu, behaalt een winstpercentage van 82,9% in vergelijking met zijn alleen vooraf getrainde tegenhanger. Vergeleken met de state-of-the-art SDXLv1.0, wordt Emu 68,4% en 71,3% van de tijd verkozen op visuele aantrekkelijkheid op de standaard PartiPrompts en onze Open User Input-benchmark, gebaseerd op het real-world gebruik van tekst-naar-beeldmodellen. Daarnaast tonen we aan dat kwaliteitsafstemming een generieke aanpak is die ook effectief is voor andere architecturen, waaronder pixel-diffusie en gemaskerde generatieve transformermodellen.
English
Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on 1.1 billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of 82.9% compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred 68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.
PDF339February 8, 2026