ChatPaper.aiChatPaper

UrbanLLaVA: Ein multimodales großes Sprachmodell für urbane Intelligenz mit räumlichem Denken und Verständnis

UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

June 29, 2025
Autoren: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI

Zusammenfassung

Die urbane Forschung umfasst eine Vielzahl von Szenarien und Aufgaben, die das Verständnis multimodaler Daten erfordern. Aktuelle Methoden konzentrieren sich oft auf spezifische Datentypen und verfügen über keinen einheitlichen Rahmen im urbanen Bereich, um diese umfassend zu verarbeiten. Der jüngste Erfolg multimodaler großer Sprachmodelle (MLLMs) bietet eine vielversprechende Gelegenheit, diese Einschränkung zu überwinden. In diesem Artikel stellen wir UrbanLLaVA vor, ein multimodales großes Sprachmodell, das entwickelt wurde, um diese vier Datentypen gleichzeitig zu verarbeiten und im Vergleich zu allgemeinen MLLMs eine starke Leistung über diverse urbane Aufgaben hinweg zu erzielen. In UrbanLLaVA kuratieren wir zunächst einen vielfältigen urbanen Instruktionsdatensatz, der sowohl unimodale als auch cross-modale urbane Daten umfasst, die von der lokalen bis zur globalen Perspektive des urbanen Umfelds reichen. Zusätzlich schlagen wir ein mehrstufiges Trainingsframework vor, das die Verbesserung des räumlichen Denkens vom Lernen von Domänenwissen entkoppelt, wodurch die Kompatibilität und die nachgelagerte Leistung von UrbanLLaVA über diverse urbane Aufgaben hinweg verbessert wird. Schließlich erweitern wir auch bestehende Benchmarks für die urbane Forschung, um die Leistung von MLLMs über eine breite Palette urbaner Aufgaben hinweg zu bewerten. Experimentelle Ergebnisse aus drei Städten zeigen, dass UrbanLLaVA sowohl in unimodalen Aufgaben als auch in komplexen cross-modalen Aufgaben Open-Source- und proprietäre MLLMs übertrifft und robuste Generalisierungsfähigkeiten über verschiedene Städte hinweg aufweist. Quellcodes und Daten sind der Forschungsgemeinschaft über https://github.com/tsinghua-fib-lab/UrbanLLaVA frei zugänglich.
English
Urban research involves a wide range of scenarios and tasks that require the understanding of multi-modal data. Current methods often focus on specific data types and lack a unified framework in urban field for processing them comprehensively. The recent success of multi-modal large language models (MLLMs) presents a promising opportunity to overcome this limitation. In this paper, we introduce UrbanLLaVA, a multi-modal large language model designed to process these four types of data simultaneously and achieve strong performance across diverse urban tasks compared with general MLLMs. In UrbanLLaVA, we first curate a diverse urban instruction dataset encompassing both single-modal and cross-modal urban data, spanning from location view to global view of urban environment. Additionally, we propose a multi-stage training framework that decouples spatial reasoning enhancement from domain knowledge learning, thereby improving the compatibility and downstream performance of UrbanLLaVA across diverse urban tasks. Finally, we also extend existing benchmark for urban research to assess the performance of MLLMs across a wide range of urban tasks. Experimental results from three cities demonstrate that UrbanLLaVA outperforms open-source and proprietary MLLMs in both single-modal tasks and complex cross-modal tasks and shows robust generalization abilities across cities. Source codes and data are openly accessible to the research community via https://github.com/tsinghua-fib-lab/UrbanLLaVA.
PDF51July 1, 2025