StableSemantics : Un ensemble de données synthétiques langage-vision pour les représentations sémantiques dans des images naturalistes

Résumé

Comprendre la sémantique des scènes visuelles constitue un défi fondamental en vision par ordinateur. Un aspect clé de ce défi réside dans le fait que des objets partageant des significations ou fonctions sémantiques similaires peuvent présenter des différences visuelles marquées, rendant leur identification et catégorisation précises difficiles. Les récents progrès dans les frameworks de génération d'images à partir de texte ont conduit à des modèles qui capturent implicitement les statistiques naturelles des scènes. Ces frameworks prennent en compte la variabilité visuelle des objets, ainsi que les co-occurrences complexes d'objets et les sources de bruit telles que les conditions d'éclairage variées. En exploitant des jeux de données à grande échelle et un conditionnement par attention croisée, ces modèles génèrent des représentations de scènes détaillées et riches en contexte. Cette capacité ouvre de nouvelles perspectives pour améliorer la reconnaissance d'objets et la compréhension des scènes dans des environnements variés et complexes. Notre travail présente StableSemantics, un jeu de données comprenant 224 000 invites (prompts) sélectionnées par des humains, des légendes en langage naturel traitées, plus de 2 millions d'images synthétiques et 10 millions de cartes d'attention correspondant à des segments nominaux individuels. Nous exploitons explicitement des invites générées par des humains qui correspondent à des générations visuellement intéressantes par diffusion stable, fournissons 10 générations par phrase et extrayons des cartes d'attention croisée pour chaque image. Nous explorons la distribution sémantique des images générées, examinons la distribution des objets dans les images et évaluons des méthodes de légendage et de segmentation à vocabulaire ouvert sur nos données. À notre connaissance, nous sommes les premiers à publier un jeu de données de diffusion avec des attributions sémantiques. Nous espérons que notre jeu de données proposé catalysera les avancées dans la compréhension sémantique visuelle et fournira une base pour développer des modèles visuels plus sophistiqués et efficaces. Site web : https://stablesemantics.github.io/StableSemantics

English

Understanding the semantics of visual scenes is a fundamental challenge in Computer Vision. A key aspect of this challenge is that objects sharing similar semantic meanings or functions can exhibit striking visual differences, making accurate identification and categorization difficult. Recent advancements in text-to-image frameworks have led to models that implicitly capture natural scene statistics. These frameworks account for the visual variability of objects, as well as complex object co-occurrences and sources of noise such as diverse lighting conditions. By leveraging large-scale datasets and cross-attention conditioning, these models generate detailed and contextually rich scene representations. This capability opens new avenues for improving object recognition and scene understanding in varied and challenging environments. Our work presents StableSemantics, a dataset comprising 224 thousand human-curated prompts, processed natural language captions, over 2 million synthetic images, and 10 million attention maps corresponding to individual noun chunks. We explicitly leverage human-generated prompts that correspond to visually interesting stable diffusion generations, provide 10 generations per phrase, and extract cross-attention maps for each image. We explore the semantic distribution of generated images, examine the distribution of objects within images, and benchmark captioning and open vocabulary segmentation methods on our data. To the best of our knowledge, we are the first to release a diffusion dataset with semantic attributions. We expect our proposed dataset to catalyze advances in visual semantic understanding and provide a foundation for developing more sophisticated and effective visual models. Website: https://stablesemantics.github.io/StableSemantics

StableSemantics : Un ensemble de données synthétiques langage-vision pour les représentations sémantiques dans des images naturalistes

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

Résumé

Support