StableSemantics: Ein synthetischer Sprach-Vision Datensatz semantischer Repräsentationen in naturalistischen Bildern
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images
June 19, 2024
Autoren: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI
Zusammenfassung
Das Verständnis der Semantik von visuellen Szenen ist eine grundlegende Herausforderung in der Computer Vision. Ein Schlüsselaspekt dieser Herausforderung ist, dass Objekte, die ähnliche semantische Bedeutungen oder Funktionen teilen, auffällige visuelle Unterschiede aufweisen können, was eine genaue Identifizierung und Kategorisierung erschwert. Die jüngsten Fortschritte in Text-zu-Bild-Frameworks haben zu Modellen geführt, die implizit natürliche Szenenstatistiken erfassen. Diese Frameworks berücksichtigen die visuelle Variabilität von Objekten sowie komplexe Objektkoinzidenzen und Quellen von Rauschen wie unterschiedliche Lichtverhältnisse. Durch die Nutzung von umfangreichen Datensätzen und Kreuz-Aufmerksamkeitskonditionierung generieren diese Modelle detaillierte und kontextuell reiche Szenedarstellungen. Diese Fähigkeit eröffnet neue Möglichkeiten zur Verbesserung der Objekterkennung und Szenenverständnis in vielfältigen und anspruchsvollen Umgebungen. Unsere Arbeit präsentiert StableSemantics, einen Datensatz, der 224.000 von Menschen kuratierte Anregungen, verarbeitete natürlichsprachliche Bildunterschriften, über 2 Millionen synthetische Bilder und 10 Millionen Aufmerksamkeitskarten für einzelne Nomen-Phrasen umfasst. Wir nutzen explizit von Menschen generierte Anregungen, die visuell interessante stabile Diffusionsgenerierungen entsprechen, bieten 10 Generationen pro Ausdruck und extrahieren Kreuz-Aufmerksamkeitskarten für jedes Bild. Wir untersuchen die semantische Verteilung der generierten Bilder, analysieren die Verteilung von Objekten innerhalb der Bilder und bewerten Bildunterschriftungs- und offene Vokabularsegmentierungsmethoden anhand unserer Daten. Nach unserem Kenntnisstand sind wir die ersten, die einen Diffusionsdatensatz mit semantischen Zuschreibungen veröffentlichen. Wir erwarten, dass unser vorgeschlagener Datensatz Fortschritte im visuellen semantischen Verständnis vorantreibt und eine Grundlage für die Entwicklung anspruchsvollerer und effektiverer visueller Modelle bietet. Website: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in
Computer Vision. A key aspect of this challenge is that objects sharing similar
semantic meanings or functions can exhibit striking visual differences, making
accurate identification and categorization difficult. Recent advancements in
text-to-image frameworks have led to models that implicitly capture natural
scene statistics. These frameworks account for the visual variability of
objects, as well as complex object co-occurrences and sources of noise such as
diverse lighting conditions. By leveraging large-scale datasets and
cross-attention conditioning, these models generate detailed and contextually
rich scene representations. This capability opens new avenues for improving
object recognition and scene understanding in varied and challenging
environments. Our work presents StableSemantics, a dataset comprising 224
thousand human-curated prompts, processed natural language captions, over 2
million synthetic images, and 10 million attention maps corresponding to
individual noun chunks. We explicitly leverage human-generated prompts that
correspond to visually interesting stable diffusion generations, provide 10
generations per phrase, and extract cross-attention maps for each image. We
explore the semantic distribution of generated images, examine the distribution
of objects within images, and benchmark captioning and open vocabulary
segmentation methods on our data. To the best of our knowledge, we are the
first to release a diffusion dataset with semantic attributions. We expect our
proposed dataset to catalyze advances in visual semantic understanding and
provide a foundation for developing more sophisticated and effective visual
models. Website: https://stablesemantics.github.io/StableSemanticsSummary
AI-Generated Summary