Segmentación Socio-Semántica Urbana mediante Razonamiento Visión-Lenguaje
Urban Socio-Semantic Segmentation with Vision-Language Reasoning
January 15, 2026
Autores: Yu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li
cs.AI
Resumen
Como centros de actividad humana, las superficies urbanas están compuestas por una gran variedad de entidades semánticas. Segmentar estas diversas entidades a partir de imágenes de satélite es crucial para una serie de aplicaciones posteriores. Los modelos de segmentación avanzados actuales pueden segmentar de manera fiable entidades definidas por atributos físicos (por ejemplo, edificios, masas de agua), pero aún presentan dificultades con categorías definidas socialmente (por ejemplo, escuelas, parques). En este trabajo, logramos la segmentación socio-semántica mediante el razonamiento de modelos de visión y lenguaje. Para facilitar esto, presentamos el conjunto de datos de Segmentación Socio-Semántica Urbana denominado SocioSeg, un nuevo recurso que comprende imágenes de satélite, mapas digitales y etiquetas a nivel de píxel de entidades semánticas sociales organizadas en una estructura jerárquica. Adicionalmente, proponemos un novedoso marco de razonamiento de visión y lenguaje llamado SocioReasoner que simula el proceso humano de identificación y anotación de entidades semánticas sociales mediante reconocimiento cross-modal y razonamiento multi-etapa. Empleamos aprendizaje por refuerzo para optimizar este proceso no diferenciable y potenciar las capacidades de razonamiento del modelo de visión y lenguaje. Los experimentos demuestran las mejoras de nuestro enfoque frente a los modelos state-of-the-art y una fuerte generalización zero-shot. Nuestro conjunto de datos y código están disponibles en https://github.com/AMAP-ML/SocioReasoner.
English
As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.