UrbanLLaVA: Un Modello Linguistico Multimodale di Grande Scala per l'Intelligenza Urbana con Ragionamento e Comprensione Spaziale
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
Autori: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
Abstract
La ricerca urbana coinvolge una vasta gamma di scenari e compiti che richiedono la comprensione di dati multi-modali. I metodi attuali spesso si concentrano su tipi specifici di dati e mancano di un framework unificato nel campo urbano per elaborarli in modo completo. Il recente successo dei modelli linguistici multi-modali di grandi dimensioni (MLLMs) presenta un'opportunità promettente per superare questa limitazione. In questo articolo, introduciamo UrbanLLaVA, un modello linguistico multi-modale di grandi dimensioni progettato per elaborare simultaneamente questi quattro tipi di dati e ottenere prestazioni solide in una varietà di compiti urbani rispetto ai MLLMs generali. In UrbanLLaVA, curiamo innanzitutto un dataset di istruzioni urbane diversificato che comprende sia dati urbani mono-modali che cross-modali, spaziando dalla vista locale alla vista globale dell'ambiente urbano. Inoltre, proponiamo un framework di addestramento multi-fase che separa il miglioramento del ragionamento spaziale dall'apprendimento delle conoscenze di dominio, migliorando così la compatibilità e le prestazioni downstream di UrbanLLaVA in una varietà di compiti urbani. Infine, estendiamo anche i benchmark esistenti per la ricerca urbana per valutare le prestazioni dei MLLMs in un'ampia gamma di compiti urbani. I risultati sperimentali provenienti da tre città dimostrano che UrbanLLaVA supera i MLLMs open-source e proprietari sia nei compiti mono-modali che in quelli cross-modali complessi e mostra robuste capacità di generalizzazione tra le città. I codici sorgenti e i dati sono accessibili alla comunità di ricerca tramite https://github.com/tsinghua-fib-lab/UrbanLLaVA.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.