ChatPaper.aiChatPaper

StableSemantics: Un Conjunto de Datos Sintético de Lenguaje-Visión para Representaciones Semánticas en Imágenes Naturalistas

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

June 19, 2024
Autores: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI

Resumen

Comprender la semántica de las escenas visuales es un desafío fundamental en Visión por Computador. Un aspecto clave de este desafío es que los objetos que comparten significados o funciones semánticas similares pueden exhibir diferencias visuales llamativas, lo que dificulta su identificación y categorización precisa. Los avances recientes en los marcos de texto a imagen han dado lugar a modelos que capturan implícitamente las estadísticas naturales de las escenas. Estos marcos tienen en cuenta la variabilidad visual de los objetos, así como las complejas co-ocurrencias de objetos y fuentes de ruido como diversas condiciones de iluminación. Al aprovechar conjuntos de datos a gran escala y el condicionamiento de atención cruzada, estos modelos generan representaciones de escenas detalladas y contextualmente ricas. Esta capacidad abre nuevas vías para mejorar el reconocimiento de objetos y la comprensión de escenas en entornos variados y desafiantes. Nuestro trabajo presenta StableSemantics, un conjunto de datos que comprende 224 mil indicaciones curradas por humanos, subtítulos de lenguaje natural procesados, más de 2 millones de imágenes sintéticas y 10 millones de mapas de atención correspondientes a fragmentos nominales individuales. Aprovechamos explícitamente indicaciones generadas por humanos que corresponden a generaciones visualmente interesantes de difusión estable, proporcionamos 10 generaciones por frase y extraemos mapas de atención cruzada para cada imagen. Exploramos la distribución semántica de las imágenes generadas, examinamos la distribución de objetos dentro de las imágenes y evaluamos métodos de subtitulado y segmentación de vocabulario abierto en nuestros datos. Hasta donde sabemos, somos los primeros en publicar un conjunto de datos de difusión con atribuciones semánticas. Esperamos que nuestro conjunto de datos propuesto catalice avances en la comprensión semántica visual y proporcione una base para el desarrollo de modelos visuales más sofisticados y efectivos. Sitio web: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in Computer Vision. A key aspect of this challenge is that objects sharing similar semantic meanings or functions can exhibit striking visual differences, making accurate identification and categorization difficult. Recent advancements in text-to-image frameworks have led to models that implicitly capture natural scene statistics. These frameworks account for the visual variability of objects, as well as complex object co-occurrences and sources of noise such as diverse lighting conditions. By leveraging large-scale datasets and cross-attention conditioning, these models generate detailed and contextually rich scene representations. This capability opens new avenues for improving object recognition and scene understanding in varied and challenging environments. Our work presents StableSemantics, a dataset comprising 224 thousand human-curated prompts, processed natural language captions, over 2 million synthetic images, and 10 million attention maps corresponding to individual noun chunks. We explicitly leverage human-generated prompts that correspond to visually interesting stable diffusion generations, provide 10 generations per phrase, and extract cross-attention maps for each image. We explore the semantic distribution of generated images, examine the distribution of objects within images, and benchmark captioning and open vocabulary segmentation methods on our data. To the best of our knowledge, we are the first to release a diffusion dataset with semantic attributions. We expect our proposed dataset to catalyze advances in visual semantic understanding and provide a foundation for developing more sophisticated and effective visual models. Website: https://stablesemantics.github.io/StableSemantics

Summary

AI-Generated Summary

PDF51December 2, 2024