Segmentation socio-sémantique urbaine par raisonnement vision-langage
Urban Socio-Semantic Segmentation with Vision-Language Reasoning
January 15, 2026
papers.authors: Yu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li
cs.AI
papers.abstract
En tant que centres d'activité humaine, les surfaces urbaines sont constituées d'une multitude d'entités sémantiques. La segmentation de ces diverses entités à partir d'imagerie satellite est cruciale pour une gamme d'applications en aval. Les modèles de segmentation avancés actuels peuvent segmenter de manière fiable les entités définies par des attributs physiques (par exemple, les bâtiments, les plans d'eau) mais peinent encore avec les catégories définies socialement (par exemple, les écoles, les parcs). Dans ce travail, nous réalisons une segmentation socio-sémantique par raisonnement avec un modèle vision-langage. Pour faciliter cela, nous présentons le jeu de données Urban Socio-Semantic Segmentation nommé SocioSeg, une nouvelle ressource comprenant de l'imagerie satellite, des cartes numériques et des étiquettes au niveau pixel d'entités sémantiques sociales organisées en une structure hiérarchique. De plus, nous proposons un nouveau cadre de raisonnement vision-langage appelé SocioReasoner qui simule le processus humain d'identification et d'annotation des entités sémantiques sociales via une reconnaissance cross-modale et un raisonnement multi-étapes. Nous utilisons l'apprentissage par renforcement pour optimiser ce processus non différentiable et susciter les capacités de raisonnement du modèle vision-langage. Les expériences démontrent les gains de notre approche par rapport aux modèles de l'état de l'art et une forte généralisation zero-shot. Notre jeu de données et notre code sont disponibles sur https://github.com/AMAP-ML/SocioReasoner.
English
As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.