UrbanLLaVA: Een Multimodaal Taalmodel voor Stedelijke Intelligentie met Ruimtelijk Redeneren en Begrip
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
Auteurs: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
Samenvatting
Stedelijk onderzoek omvat een breed scala aan scenario's en taken die het begrip van multimodale data vereisen. Huidige methoden richten zich vaak op specifieke datatypes en missen een uniform raamwerk in het stedelijke domein om deze uitgebreid te verwerken. Het recente succes van multimodale grote taalmodellen (MLLMs) biedt een veelbelovende mogelijkheid om deze beperking te overwinnen. In dit artikel introduceren we UrbanLLaVA, een multimodaal groot taalmodel dat is ontworpen om deze vier typen data gelijktijdig te verwerken en sterke prestaties te leveren bij diverse stedelijke taken in vergelijking met algemene MLLMs. In UrbanLLaVA stellen we eerst een diverse stedelijke instructiedataset samen die zowel unimodale als cross-modale stedelijke data omvat, variërend van een locatieweergave tot een globaal overzicht van de stedelijke omgeving. Daarnaast stellen we een meerfasig trainingsraamwerk voor dat ruimtelijk redeneren loskoppelt van domeinkennisleren, waardoor de compatibiliteit en downstream prestaties van UrbanLLaVA bij diverse stedelijke taken worden verbeterd. Tot slot breiden we de bestaande benchmark voor stedelijk onderzoek uit om de prestaties van MLLMs bij een breed scala aan stedelijke taken te beoordelen. Experimentele resultaten uit drie steden tonen aan dat UrbanLLaVA zowel open-source als propriëtaire MLLMs overtreft in zowel unimodale taken als complexe cross-modale taken en robuuste generalisatiecapaciteiten over steden laat zien. Broncodes en data zijn openbaar toegankelijk voor de onderzoeksgemeenschap via https://github.com/tsinghua-fib-lab/UrbanLLaVA.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.