StableSemantics: Синтетический набор данных языка и зрения семантических представлений в естественных изображениях
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images
June 19, 2024
Авторы: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI
Аннотация
Понимание семантики визуальных сцен является фундаментальным вызовом в области Компьютерного Зрения. Одним из ключевых аспектов этого вызова является то, что объекты, имеющие сходные семантические значения или функции, могут иметь заметные визуальные различия, что затрудняет точную идентификацию и категоризацию. Недавние достижения в области фреймворков текст-к-изображению привели к моделям, которые неявно улавливают естественную статистику сцены. Эти фреймворки учитывают визуальную изменчивость объектов, а также сложные совместные встречаемости объектов и источники шума, такие как разнообразные условия освещения. Используя масштабные наборы данных и кросс-внимание, эти модели генерируют детальные и контекстно насыщенные представления сцены. Эта возможность открывает новые пути для улучшения распознавания объектов и понимания сцены в разнообразных и сложных средах. Наша работа представляет StableSemantics, набор данных, включающий 224 тысячи тщательно отобранных человеком подсказок, обработанных описаний естественного языка, более 2 миллионов синтетических изображений и 10 миллионов карт внимания, соответствующих отдельным существительным. Мы явно используем подсказки, созданные людьми, соответствующие визуально интересным стабильным генерациям диффузии, предоставляем по 10 генераций на фразу и извлекаем карты кросс-внимания для каждого изображения. Мы исследуем семантическое распределение сгенерированных изображений, изучаем распределение объектов на изображениях и проводим бенчмаркинг методов подписывания и сегментации с открытым словарем на наших данных. На наш взгляд, мы первые, кто выпустил набор данных диффузии с семантическими атрибутами. Мы ожидаем, что наш предложенный набор данных стимулирует прогресс в визуальном семантическом понимании и обеспечит основу для разработки более сложных и эффективных визуальных моделей. Веб-сайт: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in
Computer Vision. A key aspect of this challenge is that objects sharing similar
semantic meanings or functions can exhibit striking visual differences, making
accurate identification and categorization difficult. Recent advancements in
text-to-image frameworks have led to models that implicitly capture natural
scene statistics. These frameworks account for the visual variability of
objects, as well as complex object co-occurrences and sources of noise such as
diverse lighting conditions. By leveraging large-scale datasets and
cross-attention conditioning, these models generate detailed and contextually
rich scene representations. This capability opens new avenues for improving
object recognition and scene understanding in varied and challenging
environments. Our work presents StableSemantics, a dataset comprising 224
thousand human-curated prompts, processed natural language captions, over 2
million synthetic images, and 10 million attention maps corresponding to
individual noun chunks. We explicitly leverage human-generated prompts that
correspond to visually interesting stable diffusion generations, provide 10
generations per phrase, and extract cross-attention maps for each image. We
explore the semantic distribution of generated images, examine the distribution
of objects within images, and benchmark captioning and open vocabulary
segmentation methods on our data. To the best of our knowledge, we are the
first to release a diffusion dataset with semantic attributions. We expect our
proposed dataset to catalyze advances in visual semantic understanding and
provide a foundation for developing more sophisticated and effective visual
models. Website: https://stablesemantics.github.io/StableSemanticsSummary
AI-Generated Summary