Emu: Miglioramento dei Modelli di Generazione di Immagini Utilizzando Aghi Fotogenici in un Pagliaio

Abstract

L'addestramento di modelli testo-immagine con coppie immagine-testo su scala web consente la generazione di un'ampia gamma di concetti visivi a partire dal testo. Tuttavia, questi modelli pre-addestrati spesso incontrano difficoltà nella generazione di immagini altamente estetiche. Ciò crea la necessità di un allineamento estetico post pre-addestramento. In questo articolo, proponiamo il quality-tuning per guidare efficacemente un modello pre-addestrato a generare esclusivamente immagini altamente visivamente accattivanti, mantenendo al contempo la generalità attraverso i concetti visivi. La nostra intuizione chiave è che il fine-tuning supervisionato con un insieme sorprendentemente piccolo ma estremamente visivamente accattivante di immagini può migliorare significativamente la qualità della generazione. Pre-addestriamo un modello di diffusione latente su 1,1 miliardi di coppie immagine-testo e lo ottimizziamo con solo poche migliaia di immagini di alta qualità selezionate con cura. Il modello risultante, Emu, raggiunge un tasso di vittoria dell'82,9% rispetto alla sua controparte solo pre-addestrata. Rispetto allo stato dell'arte SDXLv1.0, Emu è preferito il 68,4% e il 71,3% delle volte per l'appeal visivo sui benchmark standard PartiPrompts e sul nostro Open User Input basato sull'uso reale dei modelli testo-immagine. Inoltre, dimostriamo che il quality-tuning è un approccio generico efficace anche per altre architetture, inclusi i modelli di diffusione pixel e i modelli trasformatori generativi mascherati.

English

Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on 1.1 billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of 82.9% compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred 68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.

Emu: Miglioramento dei Modelli di Generazione di Immagini Utilizzando Aghi Fotogenici in un Pagliaio

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

Abstract

Support