ChatPaper.aiChatPaper

Ein Bild sagt mehr als tausend Worte: Prinzipiengeleitetes Re-Captioning verbessert die Bildgenerierung

A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

October 25, 2023
Autoren: Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
cs.AI

Zusammenfassung

Text-to-Image-Diffusionsmodelle haben in den letzten Jahren einen bemerkenswerten Fortschritt in ihren Fähigkeiten erzielt, wodurch hochwertige und vielfältige Bildsynthesen aus textuellen Eingabeaufforderungen ermöglicht werden. Allerdings haben selbst die fortschrittlichsten Modelle oft Schwierigkeiten, alle Anweisungen in ihren Eingabeaufforderungen präzise zu befolgen. Die überwiegende Mehrheit dieser Modelle wird auf Datensätzen trainiert, die aus (Bild, Beschriftung)-Paaren bestehen, wobei die Bilder häufig aus dem Web stammen und die Beschriftungen deren HTML-Alternativtexte sind. Ein bemerkenswertes Beispiel ist der LAION-Datensatz, der von Stable Diffusion und anderen Modellen verwendet wird. In dieser Arbeit beobachten wir, dass diese Beschriftungen oft von geringer Qualität sind, und argumentieren, dass dies die Fähigkeit des Modells, nuancierte Semantik in den textuellen Eingabeaufforderungen zu verstehen, erheblich beeinträchtigt. Wir zeigen, dass durch die Neubeschriftung des Korpus mit einem spezialisierten automatischen Beschriftungsmodell und das Training eines Text-to-Image-Modells auf dem neu beschrifteten Datensatz das Modell insgesamt erheblich profitiert. Erstens in der Gesamtbildqualität: z.B. FID 14,84 im Vergleich zum Basiswert von 17,87 und eine Verbesserung von 64,3 % bei der treuen Bildgenerierung laut menschlicher Bewertung. Zweitens in der semantischen Ausrichtung, z.B. semantische Objektgenauigkeit 84,34 gegenüber 78,90, Zählausrichtungsfehler 1,32 gegenüber 1,44 und Positionsausrichtung 62,42 gegenüber 57,60. Wir analysieren verschiedene Möglichkeiten zur Neubeschriftung des Korpus und liefern Belege dafür, dass diese Technik, die wir RECAP nennen, sowohl die Diskrepanz zwischen Training und Inferenz verringert als auch dem Modell mehr Informationen pro Beispiel liefert, was die Stichprobeneffizienz erhöht und es dem Modell ermöglicht, die Beziehungen zwischen Beschriftungen und Bildern besser zu verstehen.
English
Text-to-image diffusion models achieved a remarkable leap in capabilities over the last few years, enabling high-quality and diverse synthesis of images from a textual prompt. However, even the most advanced models often struggle to precisely follow all of the directions in their prompts. The vast majority of these models are trained on datasets consisting of (image, caption) pairs where the images often come from the web, and the captions are their HTML alternate text. A notable example is the LAION dataset, used by Stable Diffusion and other models. In this work we observe that these captions are often of low quality, and argue that this significantly affects the model's capability to understand nuanced semantics in the textual prompts. We show that by relabeling the corpus with a specialized automatic captioning model and training a text-to-image model on the recaptioned dataset, the model benefits substantially across the board. First, in overall image quality: e.g. FID 14.84 vs. the baseline of 17.87, and 64.3% improvement in faithful image generation according to human evaluation. Second, in semantic alignment, e.g. semantic object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the corpus and provide evidence that this technique, which we call RECAP, both reduces the train-inference discrepancy and provides the model with more information per example, increasing sample efficiency and allowing the model to better understand the relations between captions and images.
PDF461December 15, 2024