StableSemantics: Un Conjunto de Datos Sintético de Lenguaje-Visión para Representaciones Semánticas en Imágenes Naturalistas
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images
June 19, 2024
Autores: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI
Resumen
Comprender la semántica de las escenas visuales es un desafío fundamental en
Visión por Computador. Un aspecto clave de este desafío es que los objetos que
comparten significados o funciones semánticas similares pueden exhibir
diferencias visuales llamativas, lo que dificulta su identificación y
categorización precisa. Los avances recientes en los marcos de texto a imagen
han dado lugar a modelos que capturan implícitamente las estadísticas naturales
de las escenas. Estos marcos tienen en cuenta la variabilidad visual de los
objetos, así como las complejas co-ocurrencias de objetos y fuentes de ruido
como diversas condiciones de iluminación. Al aprovechar conjuntos de datos a
gran escala y el condicionamiento de atención cruzada, estos modelos generan
representaciones de escenas detalladas y contextualmente ricas. Esta capacidad
abre nuevas vías para mejorar el reconocimiento de objetos y la comprensión de
escenas en entornos variados y desafiantes. Nuestro trabajo presenta
StableSemantics, un conjunto de datos que comprende 224 mil indicaciones
curradas por humanos, subtítulos de lenguaje natural procesados, más de 2
millones de imágenes sintéticas y 10 millones de mapas de atención
correspondientes a fragmentos nominales individuales. Aprovechamos
explícitamente indicaciones generadas por humanos que corresponden a
generaciones visualmente interesantes de difusión estable, proporcionamos 10
generaciones por frase y extraemos mapas de atención cruzada para cada imagen.
Exploramos la distribución semántica de las imágenes generadas, examinamos la
distribución de objetos dentro de las imágenes y evaluamos métodos de
subtitulado y segmentación de vocabulario abierto en nuestros datos. Hasta
donde sabemos, somos los primeros en publicar un conjunto de datos de difusión
con atribuciones semánticas. Esperamos que nuestro conjunto de datos propuesto
catalice avances en la comprensión semántica visual y proporcione una base para
el desarrollo de modelos visuales más sofisticados y efectivos. Sitio web:
https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in
Computer Vision. A key aspect of this challenge is that objects sharing similar
semantic meanings or functions can exhibit striking visual differences, making
accurate identification and categorization difficult. Recent advancements in
text-to-image frameworks have led to models that implicitly capture natural
scene statistics. These frameworks account for the visual variability of
objects, as well as complex object co-occurrences and sources of noise such as
diverse lighting conditions. By leveraging large-scale datasets and
cross-attention conditioning, these models generate detailed and contextually
rich scene representations. This capability opens new avenues for improving
object recognition and scene understanding in varied and challenging
environments. Our work presents StableSemantics, a dataset comprising 224
thousand human-curated prompts, processed natural language captions, over 2
million synthetic images, and 10 million attention maps corresponding to
individual noun chunks. We explicitly leverage human-generated prompts that
correspond to visually interesting stable diffusion generations, provide 10
generations per phrase, and extract cross-attention maps for each image. We
explore the semantic distribution of generated images, examine the distribution
of objects within images, and benchmark captioning and open vocabulary
segmentation methods on our data. To the best of our knowledge, we are the
first to release a diffusion dataset with semantic attributions. We expect our
proposed dataset to catalyze advances in visual semantic understanding and
provide a foundation for developing more sophisticated and effective visual
models. Website: https://stablesemantics.github.io/StableSemanticsSummary
AI-Generated Summary