ChatPaper.aiChatPaper

StableSemantics: Een synthetische taal-visie dataset van semantische representaties in naturalistische afbeeldingen

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

June 19, 2024
Auteurs: Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
cs.AI

Samenvatting

Het begrijpen van de semantiek van visuele scènes is een fundamentele uitdaging in Computer Vision. Een belangrijk aspect van deze uitdaging is dat objecten die vergelijkbare semantische betekenissen of functies delen, opvallende visuele verschillen kunnen vertonen, wat een nauwkeurige identificatie en categorisering bemoeilijkt. Recente vooruitgang in tekst-naar-beeld frameworks heeft geleid tot modellen die impliciet natuurlijke scènestatistieken vastleggen. Deze frameworks houden rekening met de visuele variabiliteit van objecten, evenals complexe objectco-voorkomens en bronnen van ruis, zoals diverse lichtomstandigheden. Door gebruik te maken van grootschalige datasets en cross-attention conditionering genereren deze modellen gedetailleerde en contextueel rijke scènevoorstellingen. Deze mogelijkheid opent nieuwe wegen voor het verbeteren van objectherkenning en scènebegrip in uiteenlopende en uitdagende omgevingen. Ons werk presenteert StableSemantics, een dataset bestaande uit 224 duizend door mensen samengestelde prompts, verwerkte natuurlijke taal bijschriften, meer dan 2 miljoen synthetische afbeeldingen en 10 miljoen aandachtkaarten die corresponderen met individuele naamwoordgroepen. We maken expliciet gebruik van door mensen gegenereerde prompts die overeenkomen met visueel interessante stable diffusion generaties, bieden 10 generaties per frase, en extraheren cross-attention kaarten voor elke afbeelding. We onderzoeken de semantische verdeling van gegenereerde afbeeldingen, bestuderen de verdeling van objecten binnen afbeeldingen, en benchmarken bijschrijvings- en open vocabulaire segmentatiemethoden op onze data. Voor zover wij weten, zijn wij de eersten die een diffusiedataset met semantische attributies vrijgeven. We verwachten dat onze voorgestelde dataset vooruitgang zal stimuleren in het begrijpen van visuele semantiek en een basis zal bieden voor het ontwikkelen van meer geavanceerde en effectieve visuele modellen. Website: https://stablesemantics.github.io/StableSemantics
English
Understanding the semantics of visual scenes is a fundamental challenge in Computer Vision. A key aspect of this challenge is that objects sharing similar semantic meanings or functions can exhibit striking visual differences, making accurate identification and categorization difficult. Recent advancements in text-to-image frameworks have led to models that implicitly capture natural scene statistics. These frameworks account for the visual variability of objects, as well as complex object co-occurrences and sources of noise such as diverse lighting conditions. By leveraging large-scale datasets and cross-attention conditioning, these models generate detailed and contextually rich scene representations. This capability opens new avenues for improving object recognition and scene understanding in varied and challenging environments. Our work presents StableSemantics, a dataset comprising 224 thousand human-curated prompts, processed natural language captions, over 2 million synthetic images, and 10 million attention maps corresponding to individual noun chunks. We explicitly leverage human-generated prompts that correspond to visually interesting stable diffusion generations, provide 10 generations per phrase, and extract cross-attention maps for each image. We explore the semantic distribution of generated images, examine the distribution of objects within images, and benchmark captioning and open vocabulary segmentation methods on our data. To the best of our knowledge, we are the first to release a diffusion dataset with semantic attributions. We expect our proposed dataset to catalyze advances in visual semantic understanding and provide a foundation for developing more sophisticated and effective visual models. Website: https://stablesemantics.github.io/StableSemantics
PDF61December 2, 2024