UrbanLLaVA: Мультимодальная большая языковая модель для городского интеллекта с пространственным анализом и пониманием
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
Авторы: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
Аннотация
Исследования в области урбанистики охватывают широкий спектр сценариев и задач, требующих понимания мультимодальных данных. Современные методы часто сосредоточены на конкретных типах данных и не имеют единой структуры для их комплексной обработки в урбанистической сфере. Недавние успехи мультимодальных больших языковых моделей (MLLMs) представляют перспективную возможность для преодоления этого ограничения. В данной статье мы представляем UrbanLLaVA — мультимодальную большую языковую модель, разработанную для одновременной обработки четырех типов данных и демонстрирующую высокую производительность в разнообразных городских задачах по сравнению с общими MLLMs. В UrbanLLaVA мы сначала создаем разнообразный набор инструкций для городских данных, охватывающий как одноканальные, так и кросс-модальные данные, начиная с локального вида и заканчивая глобальным представлением городской среды. Кроме того, мы предлагаем многоэтапную структуру обучения, которая разделяет улучшение пространственного мышления и изучение предметной области, тем самым повышая совместимость и производительность UrbanLLaVA в различных городских задачах. Наконец, мы также расширяем существующий эталонный набор для городских исследований, чтобы оценить производительность MLLMs в широком спектре городских задач. Экспериментальные результаты, полученные в трех городах, демонстрируют, что UrbanLLaVA превосходит как открытые, так и проприетарные MLLMs как в одноканальных, так и в сложных кросс-модальных задачах, а также показывает устойчивые способности к обобщению в разных городах. Исходные коды и данные открыты для исследовательского сообщества по адресу https://github.com/tsinghua-fib-lab/UrbanLLaVA.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.