TerraScope: Ragionamento Visivo Ancorato ai Pixel per l'Osservazione della Terra
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
March 19, 2026
Autori: Yan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota
cs.AI
Abstract
I modelli visione-linguaggio (VLM) hanno mostrato potenzialità nel campo dell'osservazione terrestre (EO), ma incontrano difficoltà con compiti che richiedono l'ancoraggio di ragionamenti spaziali complessi a rappresentazioni visive precise a livello di pixel. Per affrontare questo problema, introduciamo TerraScope, un VLM unificato che fornisce ragionamenti geospaziali ancorati ai pixel con due capacità chiave: (1) ragionamento modale-flessibile: gestisce input a modalità singola (ottica o SAR) e fonde adattivamente diverse modalità nel processo di ragionamento quando entrambe sono disponibili; (2) ragionamento multi-temporale: integra sequenze temporali per l'analisi dei cambiamenti su più punti temporali. Inoltre, abbiamo curato Terra-CoT, un dataset su larga scala contenente 1 milione di campioni con maschere a livello di pixel incorporate in catene di ragionamento provenienti da molteplici fonti. Proponiamo anche TerraScope-Bench, il primo benchmark per il ragionamento geospaziale ancorato ai pixel con sei sotto-compiti che valuta sia l'accuratezza delle risposte che la qualità delle maschere per garantire un ragionamento autenticamente ancorato ai pixel. Gli esperimenti mostrano che TerraScope supera significativamente i VLM esistenti nel ragionamento geospaziale ancorato ai pixel, fornendo al contempo evidenze visive interpretabili.
English
Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.