Een Afbeelding Vertelt Meer dan Duizend Woorden: Principes van Herbeschrijving Verbeteren Beeldgeneratie
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
October 25, 2023
Auteurs: Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
cs.AI
Samenvatting
Text-to-image diffusiemodellen hebben de afgelopen jaren een opmerkelijke vooruitgang geboekt, waardoor hoogwaardige en diverse synthese van afbeeldingen vanuit een tekstuele prompt mogelijk is geworden. Toch hebben zelfs de meest geavanceerde modellen vaak moeite om alle aanwijzingen in hun prompts nauwkeurig te volgen. De overgrote meerderheid van deze modellen wordt getraind op datasets die bestaan uit (afbeelding, bijschrift)-paren, waarbij de afbeeldingen vaak van het web komen en de bijschriften hun HTML-alternatieve tekst zijn. Een opvallend voorbeeld is de LAION-dataset, die wordt gebruikt door Stable Diffusion en andere modellen. In dit werk observeren we dat deze bijschriften vaak van lage kwaliteit zijn, en we beargumenteren dat dit de mogelijkheid van het model om genuanceerde semantiek in de tekstuele prompts te begrijpen aanzienlijk beïnvloedt. We laten zien dat door het herlabelen van het corpus met een gespecialiseerd automatisch bijschriftmodel en het trainen van een text-to-image model op de herschreven dataset, het model aanzienlijk verbetert op alle fronten. Ten eerste in de algehele beeldkwaliteit: bijvoorbeeld FID 14,84 versus de baseline van 17,87, en een verbetering van 64,3% in getrouwe beeldgeneratie volgens menselijke evaluatie. Ten tweede in semantische uitlijning, bijvoorbeeld semantische objectnauwkeurigheid 84,34 versus 78,90, teluitlijningsfouten 1,32 versus 1,44 en positionele uitlijning 62,42 versus 57,60. We analyseren verschillende manieren om het corpus opnieuw te labelen en leveren bewijs dat deze techniek, die we RECAP noemen, zowel de discrepantie tussen training en inferentie vermindert als het model meer informatie per voorbeeld biedt, waardoor de steekproefficiëntie toeneemt en het model de relaties tussen bijschriften en afbeeldingen beter kan begrijpen.
English
Text-to-image diffusion models achieved a remarkable leap in capabilities
over the last few years, enabling high-quality and diverse synthesis of images
from a textual prompt. However, even the most advanced models often struggle to
precisely follow all of the directions in their prompts. The vast majority of
these models are trained on datasets consisting of (image, caption) pairs where
the images often come from the web, and the captions are their HTML alternate
text. A notable example is the LAION dataset, used by Stable Diffusion and
other models. In this work we observe that these captions are often of low
quality, and argue that this significantly affects the model's capability to
understand nuanced semantics in the textual prompts. We show that by relabeling
the corpus with a specialized automatic captioning model and training a
text-to-image model on the recaptioned dataset, the model benefits
substantially across the board. First, in overall image quality: e.g. FID 14.84
vs. the baseline of 17.87, and 64.3% improvement in faithful image generation
according to human evaluation. Second, in semantic alignment, e.g. semantic
object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and
positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the
corpus and provide evidence that this technique, which we call RECAP, both
reduces the train-inference discrepancy and provides the model with more
information per example, increasing sample efficiency and allowing the model to
better understand the relations between captions and images.