ChatPaper.aiChatPaper

都市の社会意味的セグメンテーション:ビジョン・ランゲージ推論によるアプローチ

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

January 15, 2026
著者: Yu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li
cs.AI

要旨

人間活動の中心地として、都市の地表には豊富な意味的実体が存在する。衛星画像からこれらの多様な実体をセグメンテーションすることは、様々な下流アプリケーションにとって極めて重要である。現在の先進的なセグメンテーションモデルは、物理的属性で定義される実体(建物、水域など)を確実に分割できるが、社会的に定義されるカテゴリ(学校、公園など)には依然として苦戦している。本研究では、視覚言語モデルによる推論を用いて社会・意味的セグメンテーションを実現する。これを促進するため、階層構造で組織化された社会意味的実体の衛星画像、デジタルマップ、ピクセルレベルのラベルを含む新しいリソースであるUrban Socio-Semantic Segmentationデータセット(SocioSeg)を導入する。さらに、クロスモーダル認識と多段階推論を通じて、社会意味的実体を識別・注釈する人間のプロセスを模倣する新しい視覚言語推論フレームワークSocioReasonerを提案する。この微分不可能なプロセスを最適化し、視覚言語モデルの推論能力を引き出すために強化学習を採用する。実験により、本手法が最先端モデルを上回る性能と強力なゼロショット一般化能力を発揮することを実証する。データセットとコードはhttps://github.com/AMAP-ML/SocioReasonerで公開されている。
English
As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.
PDF1382January 17, 2026