StableSemantics : Un ensemble de données synthétiques langage-vision pour les représentations sémantiques dans des images naturalistes
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images
June 19, 2024
Auteurs: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI
Résumé
Comprendre la sémantique des scènes visuelles constitue un défi fondamental en vision par ordinateur. Un aspect clé de ce défi réside dans le fait que des objets partageant des significations ou fonctions sémantiques similaires peuvent présenter des différences visuelles marquées, rendant leur identification et catégorisation précises difficiles. Les récents progrès dans les frameworks de génération d'images à partir de texte ont conduit à des modèles qui capturent implicitement les statistiques naturelles des scènes. Ces frameworks prennent en compte la variabilité visuelle des objets, ainsi que les co-occurrences complexes d'objets et les sources de bruit telles que les conditions d'éclairage variées. En exploitant des jeux de données à grande échelle et un conditionnement par attention croisée, ces modèles génèrent des représentations de scènes détaillées et riches en contexte. Cette capacité ouvre de nouvelles perspectives pour améliorer la reconnaissance d'objets et la compréhension des scènes dans des environnements variés et complexes. Notre travail présente StableSemantics, un jeu de données comprenant 224 000 invites (prompts) sélectionnées par des humains, des légendes en langage naturel traitées, plus de 2 millions d'images synthétiques et 10 millions de cartes d'attention correspondant à des segments nominaux individuels. Nous exploitons explicitement des invites générées par des humains qui correspondent à des générations visuellement intéressantes par diffusion stable, fournissons 10 générations par phrase et extrayons des cartes d'attention croisée pour chaque image. Nous explorons la distribution sémantique des images générées, examinons la distribution des objets dans les images et évaluons des méthodes de légendage et de segmentation à vocabulaire ouvert sur nos données. À notre connaissance, nous sommes les premiers à publier un jeu de données de diffusion avec des attributions sémantiques. Nous espérons que notre jeu de données proposé catalysera les avancées dans la compréhension sémantique visuelle et fournira une base pour développer des modèles visuels plus sophistiqués et efficaces. Site web : https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in
Computer Vision. A key aspect of this challenge is that objects sharing similar
semantic meanings or functions can exhibit striking visual differences, making
accurate identification and categorization difficult. Recent advancements in
text-to-image frameworks have led to models that implicitly capture natural
scene statistics. These frameworks account for the visual variability of
objects, as well as complex object co-occurrences and sources of noise such as
diverse lighting conditions. By leveraging large-scale datasets and
cross-attention conditioning, these models generate detailed and contextually
rich scene representations. This capability opens new avenues for improving
object recognition and scene understanding in varied and challenging
environments. Our work presents StableSemantics, a dataset comprising 224
thousand human-curated prompts, processed natural language captions, over 2
million synthetic images, and 10 million attention maps corresponding to
individual noun chunks. We explicitly leverage human-generated prompts that
correspond to visually interesting stable diffusion generations, provide 10
generations per phrase, and extract cross-attention maps for each image. We
explore the semantic distribution of generated images, examine the distribution
of objects within images, and benchmark captioning and open vocabulary
segmentation methods on our data. To the best of our knowledge, we are the
first to release a diffusion dataset with semantic attributions. We expect our
proposed dataset to catalyze advances in visual semantic understanding and
provide a foundation for developing more sophisticated and effective visual
models. Website: https://stablesemantics.github.io/StableSemanticsSummary
AI-Generated Summary