Segmentazione Socio-Semantica Urbana con Ragionamento Visione-Linguaggio

Abstract

In quanto centri di attività umana, le superfici urbane sono costituite da una ricchezza di entità semantiche. La segmentazione di queste varie entità da immagini satellitari è cruciale per una serie di applicazioni downstream. Gli attuali modelli di segmentazione avanzati possono segmentare in modo affidabile entità definite da attributi fisici (ad esempio, edifici, corpi idrici), ma incontrano ancora difficoltà con categorie definite socialmente (ad esempio, scuole, parchi). In questo lavoro, otteniamo la segmentazione socio-semantica mediante ragionamento con modelli visione-linguaggio. Per facilitare ciò, introduciamo il dataset Urban Socio-Semantic Segmentation denominato SocioSeg, una nuova risorsa che comprende immagini satellitari, mappe digitali ed etichette a livello di pixel di entità semantiche sociali organizzate in una struttura gerarchica. Inoltre, proponiamo una nuova architettura di ragionamento visione-linguaggio chiamata SocioReasoner che simula il processo umano di identificazione e annotazione di entità semantiche sociali tramite riconoscimento cross-modale e ragionamento multi-stadio. Utilizziamo l'apprendimento per rinforzo per ottimizzare questo processo non differenziabile e elicitare le capacità di ragionamento del modello visione-linguaggio. Gli esperimenti dimostrano i vantaggi del nostro approccio rispetto ai modelli state-of-the-art e una forte generalizzazione zero-shot. Il nostro dataset e il codice sono disponibili su https://github.com/AMAP-ML/SocioReasoner.

English

As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.

Segmentazione Socio-Semantica Urbana con Ragionamento Visione-Linguaggio

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

Abstract

Support