Stedelijke Socio-Semantische Segmentatie met Vision-Language Redeneren

Samenvatting

Als knooppunten van menselijke activiteit bestaan stedelijke oppervlakken uit een rijkdom aan semantische entiteiten. Het segmenteren van deze diverse entiteiten uit satellietbeelden is cruciaal voor een reeks downstream-toepassingen. Huidige geavanceerde segmentatiemodellen kunnen entiteiten gedefinieerd door fysieke attributen (bijvoorbeeld gebouwen, waterlichamen) betrouwbaar segmenteren, maar hebben nog steeds moeite met sociaal gedefinieerde categorieën (bijvoorbeeld scholen, parken). In dit werk bereiken we socio-semantische segmentatie door redenering met vision-language-modellen. Om dit te vergemakkelijken, introduceren we de Urban Socio-Semantic Segmentation-dataset genaamd SocioSeg, een nieuwe bron bestaande uit satellietbeelden, digitale kaarten en pixelgewijze labels van sociaal-semantische entiteiten, georganiseerd in een hiërarchische structuur. Daarnaast stellen we een nieuw vision-language-redeneerkader voor, genaamd SocioReasoner, dat het menselijke proces van identificeren en annoteren van sociaal-semantische entiteiten nabootst via cross-modale herkenning en meerfasenredenering. We gebruiken reinforcement learning om dit niet-differentieerbare proces te optimaliseren en de redeneercapaciteiten van het vision-language-model te activeren. Experimenten tonen de verbeteringen van onze aanpak ten opzichte van state-of-the-art modellen en sterke zero-shot-generalizatie aan. Onze dataset en code zijn beschikbaar op https://github.com/AMAP-ML/SocioReasoner.

English

As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.

Stedelijke Socio-Semantische Segmentatie met Vision-Language Redeneren

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

Samenvatting

Support