ChatPaper.aiChatPaper

StableSemantics: Синтетический набор данных языка и зрения семантических представлений в естественных изображениях

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

June 19, 2024
Авторы: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI

Аннотация

Понимание семантики визуальных сцен является фундаментальным вызовом в области Компьютерного Зрения. Одним из ключевых аспектов этого вызова является то, что объекты, имеющие сходные семантические значения или функции, могут иметь заметные визуальные различия, что затрудняет точную идентификацию и категоризацию. Недавние достижения в области фреймворков текст-к-изображению привели к моделям, которые неявно улавливают естественную статистику сцены. Эти фреймворки учитывают визуальную изменчивость объектов, а также сложные совместные встречаемости объектов и источники шума, такие как разнообразные условия освещения. Используя масштабные наборы данных и кросс-внимание, эти модели генерируют детальные и контекстно насыщенные представления сцены. Эта возможность открывает новые пути для улучшения распознавания объектов и понимания сцены в разнообразных и сложных средах. Наша работа представляет StableSemantics, набор данных, включающий 224 тысячи тщательно отобранных человеком подсказок, обработанных описаний естественного языка, более 2 миллионов синтетических изображений и 10 миллионов карт внимания, соответствующих отдельным существительным. Мы явно используем подсказки, созданные людьми, соответствующие визуально интересным стабильным генерациям диффузии, предоставляем по 10 генераций на фразу и извлекаем карты кросс-внимания для каждого изображения. Мы исследуем семантическое распределение сгенерированных изображений, изучаем распределение объектов на изображениях и проводим бенчмаркинг методов подписывания и сегментации с открытым словарем на наших данных. На наш взгляд, мы первые, кто выпустил набор данных диффузии с семантическими атрибутами. Мы ожидаем, что наш предложенный набор данных стимулирует прогресс в визуальном семантическом понимании и обеспечит основу для разработки более сложных и эффективных визуальных моделей. Веб-сайт: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in Computer Vision. A key aspect of this challenge is that objects sharing similar semantic meanings or functions can exhibit striking visual differences, making accurate identification and categorization difficult. Recent advancements in text-to-image frameworks have led to models that implicitly capture natural scene statistics. These frameworks account for the visual variability of objects, as well as complex object co-occurrences and sources of noise such as diverse lighting conditions. By leveraging large-scale datasets and cross-attention conditioning, these models generate detailed and contextually rich scene representations. This capability opens new avenues for improving object recognition and scene understanding in varied and challenging environments. Our work presents StableSemantics, a dataset comprising 224 thousand human-curated prompts, processed natural language captions, over 2 million synthetic images, and 10 million attention maps corresponding to individual noun chunks. We explicitly leverage human-generated prompts that correspond to visually interesting stable diffusion generations, provide 10 generations per phrase, and extract cross-attention maps for each image. We explore the semantic distribution of generated images, examine the distribution of objects within images, and benchmark captioning and open vocabulary segmentation methods on our data. To the best of our knowledge, we are the first to release a diffusion dataset with semantic attributions. We expect our proposed dataset to catalyze advances in visual semantic understanding and provide a foundation for developing more sophisticated and effective visual models. Website: https://stablesemantics.github.io/StableSemantics

Summary

AI-Generated Summary

PDF51December 2, 2024