UrbanLLaVA: 공간 추론 및 이해를 통한 도시 인텔리전스를 위한 다중 모달 대형 언어 모델
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding
June 29, 2025
저자: Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
cs.AI
초록
도시 연구는 다중 모드 데이터의 이해를 요구하는 다양한 시나리오와 작업을 포함합니다. 현재의 방법들은 특정 데이터 유형에 초점을 맞추는 경우가 많으며, 이를 포괄적으로 처리하기 위한 통합된 프레임워크가 도시 분야에서 부족합니다. 최근 다중 모드 대형 언어 모델(MLLMs)의 성공은 이러한 한계를 극복할 수 있는 유망한 기회를 제공합니다. 본 논문에서는 이러한 네 가지 유형의 데이터를 동시에 처리하고 일반적인 MLLMs에 비해 다양한 도시 작업에서 강력한 성능을 달성하기 위해 설계된 다중 모드 대형 언어 모델인 UrbanLLaVA를 소개합니다. UrbanLLaVA에서는 위치 뷰에서 도시 환경의 글로벌 뷰에 이르는 단일 모드 및 교차 모드 도시 데이터를 포함한 다양한 도시 명령 데이터 세트를 먼저 정제합니다. 또한, 공간 추론 강화와 도메인 지식 학습을 분리하여 UrbanLLaVA의 호환성과 다운스트림 성능을 개선하는 다단계 훈련 프레임워크를 제안합니다. 마지막으로, 다양한 도시 작업에서 MLLMs의 성능을 평가하기 위해 기존의 벤치마크를 확장합니다. 세 도시에서의 실험 결과는 UrbanLLaVA가 단일 모드 작업과 복잡한 교차 모드 작업 모두에서 오픈소스 및 독점 MLLMs를 능가하며 도시 간 강력한 일반화 능력을 보여줌을 입증합니다. 소스 코드와 데이터는 https://github.com/tsinghua-fib-lab/UrbanLLaVA를 통해 연구 커뮤니티에 공개적으로 접근 가능합니다.
English
Urban research involves a wide range of scenarios and tasks that require the
understanding of multi-modal data. Current methods often focus on specific data
types and lack a unified framework in urban field for processing them
comprehensively. The recent success of multi-modal large language models
(MLLMs) presents a promising opportunity to overcome this limitation. In this
paper, we introduce UrbanLLaVA, a multi-modal large language model
designed to process these four types of data simultaneously and achieve strong
performance across diverse urban tasks compared with general MLLMs. In
UrbanLLaVA, we first curate a diverse urban instruction dataset
encompassing both single-modal and cross-modal urban data, spanning from
location view to global view of urban environment. Additionally, we propose a
multi-stage training framework that decouples spatial reasoning enhancement
from domain knowledge learning, thereby improving the compatibility and
downstream performance of UrbanLLaVA across diverse urban tasks.
Finally, we also extend existing benchmark for urban research to assess the
performance of MLLMs across a wide range of urban tasks. Experimental results
from three cities demonstrate that UrbanLLaVA outperforms
open-source and proprietary MLLMs in both single-modal tasks and complex
cross-modal tasks and shows robust generalization abilities across cities.
Source codes and data are openly accessible to the research community via
https://github.com/tsinghua-fib-lab/UrbanLLaVA.