StableSemantics: Um Conjunto de Dados Sintético de Linguagem-Visão para Representações Semânticas em Imagens Naturalísticas
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images
June 19, 2024
Autores: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI
Resumo
Compreender a semântica de cenas visuais é um desafio fundamental na Visão Computacional. Um aspecto crucial desse desafio é que objetos que compartilham significados ou funções semânticas semelhantes podem exibir diferenças visuais marcantes, tornando difícil a identificação e categorização precisas. Avanços recentes em frameworks de texto para imagem levaram ao desenvolvimento de modelos que capturam implicitamente as estatísticas naturais de cenas. Esses frameworks levam em consideração a variabilidade visual dos objetos, bem como as complexas co-ocorrências de objetos e fontes de ruído, como condições de iluminação diversas. Ao aproveitar conjuntos de dados em larga escala e condicionamento de atenção cruzada, esses modelos geram representações de cenas detalhadas e contextualmente ricas. Essa capacidade abre novos caminhos para melhorar o reconhecimento de objetos e a compreensão de cenas em ambientes variados e desafiadores. Nosso trabalho apresenta o StableSemantics, um conjunto de dados que compreende 224 mil prompts curados por humanos, legendas de linguagem natural processadas, mais de 2 milhões de imagens sintéticas e 10 milhões de mapas de atenção correspondentes a trechos de substantivos individuais. Nós explicitamente aproveitamos prompts gerados por humanos que correspondem a gerações visualmente interessantes de difusão estável, fornecemos 10 gerações por frase e extraímos mapas de atenção cruzada para cada imagem. Exploramos a distribuição semântica das imagens geradas, examinamos a distribuição de objetos dentro das imagens e avaliamos métodos de legendagem e segmentação de vocabulário aberto em nossos dados. Até onde sabemos, somos os primeiros a lançar um conjunto de dados de difusão com atribuições semânticas. Esperamos que o conjunto de dados proposto catalise avanços na compreensão da semântica visual e forneça uma base para o desenvolvimento de modelos visuais mais sofisticados e eficazes. Website: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in
Computer Vision. A key aspect of this challenge is that objects sharing similar
semantic meanings or functions can exhibit striking visual differences, making
accurate identification and categorization difficult. Recent advancements in
text-to-image frameworks have led to models that implicitly capture natural
scene statistics. These frameworks account for the visual variability of
objects, as well as complex object co-occurrences and sources of noise such as
diverse lighting conditions. By leveraging large-scale datasets and
cross-attention conditioning, these models generate detailed and contextually
rich scene representations. This capability opens new avenues for improving
object recognition and scene understanding in varied and challenging
environments. Our work presents StableSemantics, a dataset comprising 224
thousand human-curated prompts, processed natural language captions, over 2
million synthetic images, and 10 million attention maps corresponding to
individual noun chunks. We explicitly leverage human-generated prompts that
correspond to visually interesting stable diffusion generations, provide 10
generations per phrase, and extract cross-attention maps for each image. We
explore the semantic distribution of generated images, examine the distribution
of objects within images, and benchmark captioning and open vocabulary
segmentation methods on our data. To the best of our knowledge, we are the
first to release a diffusion dataset with semantic attributions. We expect our
proposed dataset to catalyze advances in visual semantic understanding and
provide a foundation for developing more sophisticated and effective visual
models. Website: https://stablesemantics.github.io/StableSemantics