UrbanLLaVA: Um Modelo de Linguagem de Grande Escala Multimodal para Inteligência Urbana com Raciocínio e Compreensão Espacial
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
Autores: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
Resumo
A pesquisa urbana envolve uma ampla gama de cenários e tarefas que exigem a compreensão de dados multimodais. Os métodos atuais frequentemente se concentram em tipos específicos de dados e carecem de uma estrutura unificada no campo urbano para processá-los de forma abrangente. O recente sucesso dos modelos de linguagem de grande escala multimodais (MLLMs) apresenta uma oportunidade promissora para superar essa limitação. Neste artigo, apresentamos o UrbanLLaVA, um modelo de linguagem de grande escala multimodal projetado para processar simultaneamente esses quatro tipos de dados e alcançar um desempenho robusto em diversas tarefas urbanas em comparação com MLLMs gerais. No UrbanLLaVA, primeiro organizamos um conjunto de dados de instruções urbanas diversificado, abrangendo dados urbanos unimodais e multimodais, desde a visão local até a visão global do ambiente urbano. Além disso, propomos uma estrutura de treinamento em múltiplas etapas que desacopla o aprimoramento do raciocínio espacial da aprendizagem de conhecimento de domínio, melhorando assim a compatibilidade e o desempenho subsequente do UrbanLLaVA em diversas tarefas urbanas. Por fim, também estendemos o benchmark existente para pesquisa urbana a fim de avaliar o desempenho dos MLLMs em uma ampla gama de tarefas urbanas. Os resultados experimentais de três cidades demonstram que o UrbanLLaVA supera MLLMs de código aberto e proprietários tanto em tarefas unimodais quanto em tarefas multimodais complexas e mostra habilidades robustas de generalização entre cidades. Os códigos-fonte e os dados estão acessíveis à comunidade de pesquisa em https://github.com/tsinghua-fib-lab/UrbanLLaVA.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.