StableSemantics: Un Dataset Sintetico Linguaggio-Visione di Rappresentazioni Semantiche in Immagini Naturalistiche
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images
June 19, 2024
Autori: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI
Abstract
Comprendere la semantica delle scene visive rappresenta una sfida fondamentale nel campo della Computer Vision. Un aspetto cruciale di questa sfida è che oggetti che condividono significati o funzioni semantiche simili possono presentare differenze visive marcate, rendendo difficile l'identificazione e la categorizzazione accurata. I recenti progressi nei framework testo-immagine hanno portato allo sviluppo di modelli che catturano implicitamente le statistiche naturali delle scene. Questi framework tengono conto della variabilità visiva degli oggetti, nonché delle complesse co-occorrenze di oggetti e delle fonti di rumore come le diverse condizioni di illuminazione. Sfruttando dataset su larga scala e il condizionamento tramite cross-attention, questi modelli generano rappresentazioni di scene dettagliate e ricche di contesto. Questa capacità apre nuove strade per migliorare il riconoscimento degli oggetti e la comprensione delle scene in ambienti vari e complessi. Il nostro lavoro presenta StableSemantics, un dataset che comprende 224 mila prompt curati da esseri umani, didascalie in linguaggio naturale processate, oltre 2 milioni di immagini sintetiche e 10 milioni di mappe di attenzione corrispondenti a singoli frammenti nominali. Utilizziamo esplicitamente prompt generati da esseri umani che corrispondono a generazioni visivamente interessanti di stable diffusion, forniamo 10 generazioni per frase ed estraiamo mappe di cross-attention per ogni immagine. Esploriamo la distribuzione semantica delle immagini generate, esaminiamo la distribuzione degli oggetti all'interno delle immagini e valutiamo metodi di captioning e segmentazione a vocabolario aperto sui nostri dati. Per quanto ne sappiamo, siamo i primi a rilasciare un dataset di diffusion con attribuzioni semantiche. Ci aspettiamo che il nostro dataset proposto catalizzi progressi nella comprensione semantica visiva e fornisca una base per lo sviluppo di modelli visivi più sofisticati ed efficaci. Sito web: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in
Computer Vision. A key aspect of this challenge is that objects sharing similar
semantic meanings or functions can exhibit striking visual differences, making
accurate identification and categorization difficult. Recent advancements in
text-to-image frameworks have led to models that implicitly capture natural
scene statistics. These frameworks account for the visual variability of
objects, as well as complex object co-occurrences and sources of noise such as
diverse lighting conditions. By leveraging large-scale datasets and
cross-attention conditioning, these models generate detailed and contextually
rich scene representations. This capability opens new avenues for improving
object recognition and scene understanding in varied and challenging
environments. Our work presents StableSemantics, a dataset comprising 224
thousand human-curated prompts, processed natural language captions, over 2
million synthetic images, and 10 million attention maps corresponding to
individual noun chunks. We explicitly leverage human-generated prompts that
correspond to visually interesting stable diffusion generations, provide 10
generations per phrase, and extract cross-attention maps for each image. We
explore the semantic distribution of generated images, examine the distribution
of objects within images, and benchmark captioning and open vocabulary
segmentation methods on our data. To the best of our knowledge, we are the
first to release a diffusion dataset with semantic attributions. We expect our
proposed dataset to catalyze advances in visual semantic understanding and
provide a foundation for developing more sophisticated and effective visual
models. Website: https://stablesemantics.github.io/StableSemantics