UrbanLLaVA: Ein multimodales großes Sprachmodell für urbane Intelligenz mit räumlichem Denken und Verständnis
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
Autoren: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
Zusammenfassung
Die urbane Forschung umfasst eine Vielzahl von Szenarien und Aufgaben, die das Verständnis multimodaler Daten erfordern. Aktuelle Methoden konzentrieren sich oft auf spezifische Datentypen und verfügen über keinen einheitlichen Rahmen im urbanen Bereich, um diese umfassend zu verarbeiten. Der jüngste Erfolg multimodaler großer Sprachmodelle (MLLMs) bietet eine vielversprechende Gelegenheit, diese Einschränkung zu überwinden. In diesem Artikel stellen wir UrbanLLaVA vor, ein multimodales großes Sprachmodell, das entwickelt wurde, um diese vier Datentypen gleichzeitig zu verarbeiten und im Vergleich zu allgemeinen MLLMs eine starke Leistung über diverse urbane Aufgaben hinweg zu erzielen. In UrbanLLaVA kuratieren wir zunächst einen vielfältigen urbanen Instruktionsdatensatz, der sowohl unimodale als auch cross-modale urbane Daten umfasst, die von der lokalen bis zur globalen Perspektive des urbanen Umfelds reichen. Zusätzlich schlagen wir ein mehrstufiges Trainingsframework vor, das die Verbesserung des räumlichen Denkens vom Lernen von Domänenwissen entkoppelt, wodurch die Kompatibilität und die nachgelagerte Leistung von UrbanLLaVA über diverse urbane Aufgaben hinweg verbessert wird. Schließlich erweitern wir auch bestehende Benchmarks für die urbane Forschung, um die Leistung von MLLMs über eine breite Palette urbaner Aufgaben hinweg zu bewerten. Experimentelle Ergebnisse aus drei Städten zeigen, dass UrbanLLaVA sowohl in unimodalen Aufgaben als auch in komplexen cross-modalen Aufgaben Open-Source- und proprietäre MLLMs übertrifft und robuste Generalisierungsfähigkeiten über verschiedene Städte hinweg aufweist. Quellcodes und Daten sind der Forschungsgemeinschaft über https://github.com/tsinghua-fib-lab/UrbanLLaVA frei zugänglich.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.