UrbanLLaVA: Un modelo de lenguaje multimodal de gran escala para la inteligencia urbana con razonamiento y comprensión espacial
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
Autores: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
Resumen
La investigación urbana abarca una amplia gama de escenarios y tareas que requieren la comprensión de datos multimodales. Los métodos actuales suelen centrarse en tipos de datos específicos y carecen de un marco unificado en el ámbito urbano para procesarlos de manera integral. El reciente éxito de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) presenta una oportunidad prometedora para superar esta limitación. En este artículo, presentamos UrbanLLaVA, un modelo de lenguaje multimodal de gran escala diseñado para procesar simultáneamente estos cuatro tipos de datos y lograr un rendimiento sólido en diversas tareas urbanas en comparación con los MLLMs generales. En UrbanLLaVA, primero recopilamos un conjunto de datos de instrucciones urbanas diverso que abarca tanto datos urbanos unimodales como multimodales, desde la vista local hasta la vista global del entorno urbano. Además, proponemos un marco de entrenamiento multietapa que desacopla la mejora del razonamiento espacial del aprendizaje de conocimientos del dominio, mejorando así la compatibilidad y el rendimiento de UrbanLLaVA en diversas tareas urbanas. Finalmente, también extendemos los puntos de referencia existentes para la investigación urbana con el fin de evaluar el rendimiento de los MLLMs en una amplia gama de tareas urbanas. Los resultados experimentales de tres ciudades demuestran que UrbanLLaVA supera a los MLLMs de código abierto y propietarios tanto en tareas unimodales como en tareas multimodales complejas, y muestra capacidades robustas de generalización entre ciudades. Los códigos fuente y los datos están disponibles abiertamente para la comunidad de investigación en https://github.com/tsinghua-fib-lab/UrbanLLaVA.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.