테라스코프: 지구 관측을 위한 픽셀 기반 시각적 추론
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
March 19, 2026
저자: Yan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota
cs.AI
초록
비전-언어 모델(VLM)은 지구 관측(EO) 분야에서 유망한 성능을 보여왔지만, 복잡한 공간 추론을 정확한 픽셀 수준의 시각적 표현에 기반하여 수행해야 하는 과제에서는 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 우리는 픽셀 기반 지리공간 추론을 제공하는 통합 VLM인 TerraScope를 소개합니다. TerraScope는 두 가지 핵심 능력을 지닙니다: (1) 모달리티 유연 추론: 단일 모달리티 입력(광학 또는 SAR)을 처리하고, 두 모달리티가 모두 사용 가능한 경우 이를 추론 과정에 적응적으로 융합합니다; (2) 다중 시점 추론: 여러 시점에 걸친 변화 분석을 위해 시간序列 데이터를 통합합니다. 또한 우리는 다양한 출처의 추론 체인에 픽셀 수준 마스크가 포함된 100만 개의 샘플로 구성된 대규모 데이터셋 Terra-CoT를 구축했습니다. 더불어 답변 정확도와 마스크 품질을 모두 평가하여 진정한 픽셀 기반 추론을 보장하는 6개의 하위 과제로 구성된 최초의 픽셀 기반 지리공간 추론 벤치마크인 TerraScope-Bench를 제안합니다. 실험 결과, TerraScope는 해석 가능한 시각적 증거를 제공하면서 픽셀 기반 지리공간 추론에서 기존 VLM을 크게 능가하는 성능을 보여줍니다.
English
Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.