ChatPaper.aiChatPaper

Городская социосемантическая сегментация с использованием визуально-языковой логики

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

January 15, 2026
Авторы: Yu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li
cs.AI

Аннотация

Как центры человеческой активности, городские территории состоят из множества семантических объектов. Сегментация этих разнообразных объектов на спутниковых снимках крайне важна для широкого спектра прикладных задач. Современные передовые модели сегментации надежно выделяют объекты, определяемые физическими атрибутами (например, здания, водные объекты), но по-прежнему испытывают трудности с социально определяемыми категориями (например, школы, парки). В данной работе мы достигаем социо-семантической сегментации с помощью рассуждений моделей «визуальный язык-текст». Для этого мы представляем набор данных Urban Socio-Semantic Segmentation под названием SocioSeg — новый ресурс, содержащий спутниковые снимки, цифровые карты и пиксельные аннотации социальных семантических объектов, организованные в иерархическую структуру. Кроме того, мы предлагаем новую систему рассуждений «визуальный язык-текст» под названием SocioReasoner, которая имитирует человеческий процесс идентификации и аннотирования социальных семантических объектов посредством кросс-модального распознавания и многоэтапных рассуждений. Мы используем обучение с подкреплением для оптимизации этого недифференцируемого процесса и раскрытия способностей модели к рассуждению. Эксперименты демонстрируют преимущества нашего подхода по сравнению с современными моделями и его сильную способность к обобщению в условиях zero-shot. Наш набор данных и код доступны по адресу https://github.com/AMAP-ML/SocioReasoner.
English
As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.
PDF1382January 17, 2026