ChatPaper.aiChatPaper

비전-언어 추론을 통한 도시 사회-의미 분할

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

January 15, 2026
저자: Yu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li
cs.AI

초록

인간 활동의 중심지인 도시 표면은 다양한 의미론적 개체로 구성됩니다. 위성 이미지에서 이러한 다양한 개체를 분할하는 것은 다양한 다운스트림 애플리케이션에 중요합니다. 현재의 고급 분할 모델은 물리적 속성으로 정의된 개체(예: 건물, 수역)는 안정적으로 분할할 수 있지만, 사회적으로 정의된 범주(예: 학교, 공원)는 여전히 어려움을 겪고 있습니다. 본 연구에서는 비전-언어 모델 추론을 통해 사회-의미론적 분할을 달성합니다. 이를 위해 위성 이미지, 디지털 지도 및 계층적 구조로 조직된 사회적 의미론적 개체의 픽셀 수준 레이블을 포함하는 새로운 자원인 SocioSeg라는 도시 사회-의미론적 분할 데이터셋을 소개합니다. 추가로, 크로스 모달 인식과 다단계 추론을 통해 인간의 사회적 의미론적 개체 식별 및 주석 프로세스를 시뮬레이션하는 SocioReasoner라는 새로운 비전-언어 추론 프레임워크를 제안합니다. 우리는 강화 학습을 활용하여 이 미분 불가능한 프로세스를 최적화하고 비전-언어 모델의 추론 능력을 이끌어냅니다. 실험을 통해 우리의 접근 방식이 최첨단 모델 대비 향상된 성능과 강력한 제로샷 일반화 능력을 보여줍니다. 우리의 데이터셋과 코드는 https://github.com/AMAP-ML/SocioReasoner에서 이용할 수 있습니다.
English
As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.
PDF1382January 17, 2026