StableSemantics: 자연주의적 이미지에서의 의미 표현을 담은 합성 언어-비전 데이터셋
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images
June 19, 2024
저자: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI
초록
시각적 장면의 의미를 이해하는 것은 컴퓨터 비전 분야의 근본적인 과제입니다. 이 과제의 핵심은 유사한 의미나 기능을 공유하는 객체들이 현저한 시각적 차이를 보일 수 있어 정확한 식별과 범주화가 어렵다는 점입니다. 최근 텍스트-이미지 프레임워크의 발전으로 자연스러운 장면 통계를 암묵적으로 포착하는 모델들이 등장했습니다. 이러한 프레임워크는 객체의 시각적 변동성, 복잡한 객체 동시 발생, 그리고 다양한 조명 조건과 같은 잡음 원인들을 고려합니다. 대규모 데이터셋과 교차 주의 조건화를 활용함으로써, 이러한 모델들은 세부적이고 맥락적으로 풍부한 장면 표현을 생성합니다. 이 능력은 다양한 도전적인 환경에서 객체 인식과 장면 이해를 개선할 수 있는 새로운 가능성을 열어줍니다. 우리의 연구는 StableSemantics라는 데이터셋을 제시합니다. 이 데이터셋은 22만 4천 개의 인간이 선별한 프롬프트, 처리된 자연어 캡션, 2백만 개 이상의 합성 이미지, 그리고 개별 명사 덩어리에 해당하는 1천만 개의 주의 맵으로 구성되어 있습니다. 우리는 시각적으로 흥미로운 안정적 확산 생성에 해당하는 인간 생성 프롬프트를 명시적으로 활용하며, 각 구문에 대해 10개의 생성을 제공하고 각 이미지에 대한 교차 주의 맵을 추출합니다. 우리는 생성된 이미지의 의미적 분포를 탐구하고, 이미지 내 객체의 분포를 조사하며, 우리의 데이터에 대해 캡션 생성 및 개방형 어휘 분할 방법을 벤치마킹합니다. 우리가 아는 한, 우리는 의미적 속성이 포함된 확산 데이터셋을 최초로 공개합니다. 우리는 제안된 데이터셋이 시각적 의미 이해의 발전을 촉진하고, 더 정교하고 효과적인 시각적 모델 개발을 위한 기반을 제공할 것으로 기대합니다. 웹사이트: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in
Computer Vision. A key aspect of this challenge is that objects sharing similar
semantic meanings or functions can exhibit striking visual differences, making
accurate identification and categorization difficult. Recent advancements in
text-to-image frameworks have led to models that implicitly capture natural
scene statistics. These frameworks account for the visual variability of
objects, as well as complex object co-occurrences and sources of noise such as
diverse lighting conditions. By leveraging large-scale datasets and
cross-attention conditioning, these models generate detailed and contextually
rich scene representations. This capability opens new avenues for improving
object recognition and scene understanding in varied and challenging
environments. Our work presents StableSemantics, a dataset comprising 224
thousand human-curated prompts, processed natural language captions, over 2
million synthetic images, and 10 million attention maps corresponding to
individual noun chunks. We explicitly leverage human-generated prompts that
correspond to visually interesting stable diffusion generations, provide 10
generations per phrase, and extract cross-attention maps for each image. We
explore the semantic distribution of generated images, examine the distribution
of objects within images, and benchmark captioning and open vocabulary
segmentation methods on our data. To the best of our knowledge, we are the
first to release a diffusion dataset with semantic attributions. We expect our
proposed dataset to catalyze advances in visual semantic understanding and
provide a foundation for developing more sophisticated and effective visual
models. Website: https://stablesemantics.github.io/StableSemanticsSummary
AI-Generated Summary