ChatPaper.aiChatPaper

Obtenir le bon résultat : Améliorer la cohérence spatiale dans les modèles de génération d'images à partir de texte

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

April 1, 2024
Auteurs: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI

Résumé

L'une des principales lacunes des modèles actuels de génération d'images à partir de texte (Text-to-Image, T2I) est leur incapacité à générer de manière cohérente des images qui respectent fidèlement les relations spatiales spécifiées dans l'invite textuelle. Dans cet article, nous proposons une investigation approfondie de cette limitation, tout en développant des ensembles de données et des méthodes qui atteignent des performances de pointe. Tout d'abord, nous constatons que les ensembles de données vision-langage actuels ne représentent pas suffisamment bien les relations spatiales ; pour pallier ce problème, nous créons SPRIGHT, le premier ensemble de données à grande échelle axé sur les aspects spatiaux, en rédigeant de nouvelles descriptions pour 6 millions d'images issues de 4 ensembles de données visuelles largement utilisés. Grâce à un pipeline d'évaluation et d'analyse en trois étapes, nous montrons que SPRIGHT améliore considérablement la capture des relations spatiales par rapport aux ensembles de données existants. Pour en démontrer l'efficacité, nous exploitons seulement ~0,25 % de SPRIGHT et obtenons une amélioration de 22 % dans la génération d'images spatialement précises, tout en améliorant les scores FID et CMMD. Deuxièmement, nous constatons que l'entraînement sur des images contenant un grand nombre d'objets entraîne des améliorations substantielles en termes de cohérence spatiale. Notamment, nous atteignons un score spatial de 0,2133 sur T2I-CompBench, en effectuant un fine-tuning sur moins de 500 images. Enfin, à travers une série d'expériences contrôlées et d'ablation, nous documentons plusieurs résultats qui, selon nous, permettront de mieux comprendre les facteurs influençant la cohérence spatiale dans les modèles de génération d'images à partir de texte. Nous rendons publiques notre ensemble de données et notre modèle afin de favoriser les recherches futures dans ce domaine.
English
One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. First, we find that current vision-language datasets do not represent spatial relationships well enough; to alleviate this bottleneck, we create SPRIGHT, the first spatially-focused, large scale dataset, by re-captioning 6 million images from 4 widely used vision datasets. Through a 3-fold evaluation and analysis pipeline, we find that SPRIGHT largely improves upon existing datasets in capturing spatial relationships. To demonstrate its efficacy, we leverage only ~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially accurate images while also improving the FID and CMMD scores. Secondly, we find that training on images containing a large number of objects results in substantial improvements in spatial consistency. Notably, we attain state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Finally, through a set of controlled experiments and ablations, we document multiple findings that we believe will enhance the understanding of factors that affect spatial consistency in text-to-image models. We publicly release our dataset and model to foster further research in this area.

Summary

AI-Generated Summary

PDF323November 26, 2024