Segmentação Socio-Semântica Urbana com Raciocínio Visão-Linguagem

Resumo

Como centros da atividade humana, as superfícies urbanas são compostas por uma riqueza de entidades semânticas. Segmentar essas diversas entidades a partir de imagens de satélite é crucial para uma série de aplicações subsequentes. Os modelos avançados de segmentação atuais podem segmentar de forma confiável entidades definidas por atributos físicos (por exemplo, edifícios, corpos d'água), mas ainda lutam com categorias definidas socialmente (por exemplo, escolas, parques). Neste trabalho, alcançamos a segmentação socio-semântica por meio de raciocínio com modelos de visão computacional e linguagem. Para facilitar isso, apresentamos o conjunto de dados de Segmentação Socio-Semântica Urbana, denominado SocioSeg, um novo recurso que compreende imagens de satélite, mapas digitais e rótulos a nível de pixel de entidades semânticas sociais organizadas em uma estrutura hierárquica. Adicionalmente, propomos uma nova estrutura de raciocínio de visão e linguagem chamada SocioReasoner, que simula o processo humano de identificação e anotação de entidades semânticas sociais por meio de reconhecimento cross-modal e raciocínio multiestágio. Empregamos aprendizado por reforço para otimizar este processo não diferenciável e eliciar as capacidades de raciocínio do modelo de visão e linguagem. Experimentos demonstram os ganhos da nossa abordagem sobre os modelos state-of-the-art e uma forte generalização zero-shot. Nosso conjunto de dados e código estão disponíveis em https://github.com/AMAP-ML/SocioReasoner.

English

As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.