Une image vaut mille mots : Le recaptioning basé sur des principes améliore la génération d'images

Résumé

Les modèles de diffusion texte-image ont réalisé un bond remarquable en capacités au cours des dernières années, permettant une synthèse d'images de haute qualité et diversifiée à partir d'une invite textuelle. Cependant, même les modèles les plus avancés peinent souvent à suivre précisément toutes les instructions de leurs invites. La grande majorité de ces modèles sont entraînés sur des ensembles de données constitués de paires (image, légende) où les images proviennent souvent du web, et les légendes sont leurs textes alternatifs HTML. Un exemple notable est le jeu de données LAION, utilisé par Stable Diffusion et d'autres modèles. Dans ce travail, nous observons que ces légendes sont souvent de faible qualité, et nous soutenons que cela affecte significativement la capacité du modèle à comprendre les nuances sémantiques des invites textuelles. Nous montrons qu'en réétiquetant le corpus avec un modèle de légendage automatique spécialisé et en entraînant un modèle texte-image sur le jeu de données relégendé, le modèle en bénéficie substantiellement à tous les niveaux. Premièrement, en termes de qualité globale de l'image : par exemple, un FID de 14,84 contre une base de référence de 17,87, et une amélioration de 64,3 % dans la génération fidèle d'images selon l'évaluation humaine. Deuxièmement, en termes d'alignement sémantique, par exemple, une précision des objets sémantiques de 84,34 contre 78,90, des erreurs d'alignement de comptage de 1,32 contre 1,44 et un alignement positionnel de 62,42 contre 57,60. Nous analysons diverses méthodes pour réétiqueter le corpus et fournissons des preuves que cette technique, que nous appelons RECAP, réduit à la fois l'écart entre l'entraînement et l'inférence et fournit au modèle plus d'informations par exemple, augmentant l'efficacité de l'échantillon et permettant au modèle de mieux comprendre les relations entre les légendes et les images.

English

Text-to-image diffusion models achieved a remarkable leap in capabilities over the last few years, enabling high-quality and diverse synthesis of images from a textual prompt. However, even the most advanced models often struggle to precisely follow all of the directions in their prompts. The vast majority of these models are trained on datasets consisting of (image, caption) pairs where the images often come from the web, and the captions are their HTML alternate text. A notable example is the LAION dataset, used by Stable Diffusion and other models. In this work we observe that these captions are often of low quality, and argue that this significantly affects the model's capability to understand nuanced semantics in the textual prompts. We show that by relabeling the corpus with a specialized automatic captioning model and training a text-to-image model on the recaptioned dataset, the model benefits substantially across the board. First, in overall image quality: e.g. FID 14.84 vs. the baseline of 17.87, and 64.3% improvement in faithful image generation according to human evaluation. Second, in semantic alignment, e.g. semantic object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the corpus and provide evidence that this technique, which we call RECAP, both reduces the train-inference discrepancy and provides the model with more information per example, increasing sample efficiency and allowing the model to better understand the relations between captions and images.

Une image vaut mille mots : Le recaptioning basé sur des principes améliore la génération d'images

A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

Résumé

Support