UrbanLLaVA : Un modèle de langage multimodal à grande échelle pour l'intelligence urbaine avec raisonnement et compréhension spatiale
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
Auteurs: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
Résumé
La recherche urbaine englobe une variété de scénarios et de tâches qui nécessitent la compréhension de données multi-modales. Les méthodes actuelles se concentrent souvent sur des types de données spécifiques et manquent d'un cadre unifié dans le domaine urbain pour les traiter de manière exhaustive. Le succès récent des modèles de langage multi-modaux de grande envergure (MLLMs) offre une opportunité prometteuse pour surmonter cette limitation. Dans cet article, nous présentons UrbanLLaVA, un modèle de langage multi-modal conçu pour traiter simultanément ces quatre types de données et obtenir des performances solides dans diverses tâches urbaines par rapport aux MLLMs généraux. Dans UrbanLLaVA, nous commençons par constituer un ensemble de données d'instructions urbaines diversifié, couvrant à la fois des données urbaines mono-modales et inter-modales, allant de la vue locale à la vue globale de l'environnement urbain. En outre, nous proposons un cadre d'entraînement multi-étapes qui dissocie l'amélioration du raisonnement spatial de l'apprentissage des connaissances du domaine, améliorant ainsi la compatibilité et les performances en aval d'UrbanLLaVA dans diverses tâches urbaines. Enfin, nous étendons également les benchmarks existants pour la recherche urbaine afin d'évaluer les performances des MLLMs dans un large éventail de tâches urbaines. Les résultats expérimentaux provenant de trois villes démontrent qu'UrbanLLaVA surpasse les MLLMs open-source et propriétaires dans les tâches mono-modales et les tâches inter-modales complexes, et montre des capacités de généralisation robustes à travers les villes. Les codes sources et les données sont librement accessibles à la communauté de recherche via https://github.com/tsinghua-fib-lab/UrbanLLaVA.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.