Une image vaut mille mots : Le recaptioning basé sur des principes améliore la génération d'images
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
October 25, 2023
Auteurs: Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
cs.AI
Résumé
Les modèles de diffusion texte-image ont réalisé un bond remarquable en capacités au cours des dernières années, permettant une synthèse d'images de haute qualité et diversifiée à partir d'une invite textuelle. Cependant, même les modèles les plus avancés peinent souvent à suivre précisément toutes les instructions de leurs invites. La grande majorité de ces modèles sont entraînés sur des ensembles de données constitués de paires (image, légende) où les images proviennent souvent du web, et les légendes sont leurs textes alternatifs HTML. Un exemple notable est le jeu de données LAION, utilisé par Stable Diffusion et d'autres modèles. Dans ce travail, nous observons que ces légendes sont souvent de faible qualité, et nous soutenons que cela affecte significativement la capacité du modèle à comprendre les nuances sémantiques des invites textuelles. Nous montrons qu'en réétiquetant le corpus avec un modèle de légendage automatique spécialisé et en entraînant un modèle texte-image sur le jeu de données relégendé, le modèle en bénéficie substantiellement à tous les niveaux. Premièrement, en termes de qualité globale de l'image : par exemple, un FID de 14,84 contre une base de référence de 17,87, et une amélioration de 64,3 % dans la génération fidèle d'images selon l'évaluation humaine. Deuxièmement, en termes d'alignement sémantique, par exemple, une précision des objets sémantiques de 84,34 contre 78,90, des erreurs d'alignement de comptage de 1,32 contre 1,44 et un alignement positionnel de 62,42 contre 57,60. Nous analysons diverses méthodes pour réétiqueter le corpus et fournissons des preuves que cette technique, que nous appelons RECAP, réduit à la fois l'écart entre l'entraînement et l'inférence et fournit au modèle plus d'informations par exemple, augmentant l'efficacité de l'échantillon et permettant au modèle de mieux comprendre les relations entre les légendes et les images.
English
Text-to-image diffusion models achieved a remarkable leap in capabilities
over the last few years, enabling high-quality and diverse synthesis of images
from a textual prompt. However, even the most advanced models often struggle to
precisely follow all of the directions in their prompts. The vast majority of
these models are trained on datasets consisting of (image, caption) pairs where
the images often come from the web, and the captions are their HTML alternate
text. A notable example is the LAION dataset, used by Stable Diffusion and
other models. In this work we observe that these captions are often of low
quality, and argue that this significantly affects the model's capability to
understand nuanced semantics in the textual prompts. We show that by relabeling
the corpus with a specialized automatic captioning model and training a
text-to-image model on the recaptioned dataset, the model benefits
substantially across the board. First, in overall image quality: e.g. FID 14.84
vs. the baseline of 17.87, and 64.3% improvement in faithful image generation
according to human evaluation. Second, in semantic alignment, e.g. semantic
object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and
positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the
corpus and provide evidence that this technique, which we call RECAP, both
reduces the train-inference discrepancy and provides the model with more
information per example, increasing sample efficiency and allowing the model to
better understand the relations between captions and images.