TerraScope: Raciocínio Visual Ancorado em Pixel para Observação da Terra
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
March 19, 2026
Autores: Yan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota
cs.AI
Resumo
Os modelos visão-linguagem (VLMs) têm mostrado potencial na observação da Terra (OT), mas ainda lutam com tarefas que exigem o ancoramento de raciocínios espaciais complexos em representações visuais precisas a nível de pixel. Para resolver este problema, apresentamos o TerraScope, um VLM unificado que oferece raciocínio geoespacial ancorado em pixels com duas capacidades principais: (1) raciocínio com flexibilidade modal: processa entradas de modalidade única (ótica ou SAR) e funde adaptativamente diferentes modalidades no processo de raciocínio quando ambas estão disponíveis; (2) raciocínio multitemporal: integra sequências temporais para análise de mudanças em múltiplos pontos no tempo. Adicionalmente, criámos o Terra-CoT, um conjunto de dados em larga escala contendo 1 milhão de amostras com máscaras a nível de pixel incorporadas em cadeias de raciocínio de múltiplas fontes. Também propomos o TerraScope-Bench, o primeiro benchmark para raciocínio geoespacial ancorado em pixels com seis sub-tarefas que avalia tanto a precisão da resposta como a qualidade da máscara para garantir um raciocínio autenticamente ancorado em pixels. Experiências demonstram que o TerraScope supera significativamente os VLMs existentes em raciocínio geoespacial ancorado em pixels, fornecendo ao mesmo tempo evidências visuais interpretáveis.
English
Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.