ChatPaper.aiChatPaper

StableSemantics: Ein synthetischer Sprach-Vision Datensatz semantischer Repräsentationen in naturalistischen Bildern

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

June 19, 2024
Autoren: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI

Zusammenfassung

Das Verständnis der Semantik von visuellen Szenen ist eine grundlegende Herausforderung in der Computer Vision. Ein Schlüsselaspekt dieser Herausforderung ist, dass Objekte, die ähnliche semantische Bedeutungen oder Funktionen teilen, auffällige visuelle Unterschiede aufweisen können, was eine genaue Identifizierung und Kategorisierung erschwert. Die jüngsten Fortschritte in Text-zu-Bild-Frameworks haben zu Modellen geführt, die implizit natürliche Szenenstatistiken erfassen. Diese Frameworks berücksichtigen die visuelle Variabilität von Objekten sowie komplexe Objektkoinzidenzen und Quellen von Rauschen wie unterschiedliche Lichtverhältnisse. Durch die Nutzung von umfangreichen Datensätzen und Kreuz-Aufmerksamkeitskonditionierung generieren diese Modelle detaillierte und kontextuell reiche Szenedarstellungen. Diese Fähigkeit eröffnet neue Möglichkeiten zur Verbesserung der Objekterkennung und Szenenverständnis in vielfältigen und anspruchsvollen Umgebungen. Unsere Arbeit präsentiert StableSemantics, einen Datensatz, der 224.000 von Menschen kuratierte Anregungen, verarbeitete natürlichsprachliche Bildunterschriften, über 2 Millionen synthetische Bilder und 10 Millionen Aufmerksamkeitskarten für einzelne Nomen-Phrasen umfasst. Wir nutzen explizit von Menschen generierte Anregungen, die visuell interessante stabile Diffusionsgenerierungen entsprechen, bieten 10 Generationen pro Ausdruck und extrahieren Kreuz-Aufmerksamkeitskarten für jedes Bild. Wir untersuchen die semantische Verteilung der generierten Bilder, analysieren die Verteilung von Objekten innerhalb der Bilder und bewerten Bildunterschriftungs- und offene Vokabularsegmentierungsmethoden anhand unserer Daten. Nach unserem Kenntnisstand sind wir die ersten, die einen Diffusionsdatensatz mit semantischen Zuschreibungen veröffentlichen. Wir erwarten, dass unser vorgeschlagener Datensatz Fortschritte im visuellen semantischen Verständnis vorantreibt und eine Grundlage für die Entwicklung anspruchsvollerer und effektiverer visueller Modelle bietet. Website: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in Computer Vision. A key aspect of this challenge is that objects sharing similar semantic meanings or functions can exhibit striking visual differences, making accurate identification and categorization difficult. Recent advancements in text-to-image frameworks have led to models that implicitly capture natural scene statistics. These frameworks account for the visual variability of objects, as well as complex object co-occurrences and sources of noise such as diverse lighting conditions. By leveraging large-scale datasets and cross-attention conditioning, these models generate detailed and contextually rich scene representations. This capability opens new avenues for improving object recognition and scene understanding in varied and challenging environments. Our work presents StableSemantics, a dataset comprising 224 thousand human-curated prompts, processed natural language captions, over 2 million synthetic images, and 10 million attention maps corresponding to individual noun chunks. We explicitly leverage human-generated prompts that correspond to visually interesting stable diffusion generations, provide 10 generations per phrase, and extract cross-attention maps for each image. We explore the semantic distribution of generated images, examine the distribution of objects within images, and benchmark captioning and open vocabulary segmentation methods on our data. To the best of our knowledge, we are the first to release a diffusion dataset with semantic attributions. We expect our proposed dataset to catalyze advances in visual semantic understanding and provide a foundation for developing more sophisticated and effective visual models. Website: https://stablesemantics.github.io/StableSemantics

Summary

AI-Generated Summary

PDF51December 2, 2024