ChatPaper.aiChatPaper

TerraScope: Pixel-basiertes visuelles Denken für die Erdbeobachtung

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

March 19, 2026
Autoren: Yan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota
cs.AI

Zusammenfassung

Vision-Language-Modelle (VLMs) haben in der Erdbeobachtung vielversprechende Ergebnisse gezeigt, stoßen jedoch an Grenzen bei Aufgaben, die komplexes räumliches Schließen in präzisen pixelbasierten visuellen Darstellungen verankern müssen. Um dieses Problem zu lösen, stellen wir TerraScope vor, ein einheitliches VLM, das pixelgestütztes georäumliches Schließen mit zwei Schlüsselfähigkeiten ermöglicht: (1) modalitätsflexibles Schließen: Es verarbeitet Eingaben einzelner Modalitäten (optisch oder SAR) und fusioniert bei Verfügbarkeit beider Modalitäten diese adaptiv in den Schließprozess; (2) multitemporales Schließen: Es integriert Zeitreihen für Veränderungsanalysen über mehrere Zeitpunkte hinweg. Zusätzlich haben wir Terra-CoT erstellt, einen großen Datensatz mit 1 Million Samples, die Pixel-Masken in Schließketten über mehrere Quellen hinweg eingebettet enthalten. Wir schlagen außerdem TerraScope-Bench vor, den ersten Benchmark für pixelgestütztes georäumliches Schließen mit sechs Teilaufgaben, der sowohl Antwortgenauigkeit als auch Maskenqualität bewertet, um authentisches pixelgestütztes Schließen zu gewährleisten. Experimente zeigen, dass TerraScope bestehende VLMs beim pixelgestützten georäumlichen Schließen signifikant übertrifft und dabei interpretierbare visuelle Evidenz liefert.
English
Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.
PDF421March 24, 2026