TerraScope : Raisonnement visuel ancré sur les pixels pour l'observation de la Terre
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
March 19, 2026
Auteurs: Yan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota
cs.AI
Résumé
Les modèles vision-langage (VLM) ont montré des résultats prometteurs en observation de la Terre (OT), mais ils peinent avec les tâches nécessitant un ancrage de raisonnements spatiaux complexes dans des représentations visuelles précises au niveau pixel. Pour résoudre ce problème, nous présentons TerraScope, un VLM unifié qui réalise un raisonnement géospatial ancré sur les pixels grâce à deux capacités clés : (1) un raisonnement flexible multimodal : il traite des entrées unimodales (optiques ou SAR) et fusionne de manière adaptative différentes modalités dans le processus de raisonnement lorsque les deux sont disponibles ; (2) un raisonnement multi-temporel : il intègre des séquences temporelles pour l'analyse des changements sur plusieurs dates. De plus, nous constituons Terra-CoT, un jeu de données à grande échelle contenant 1 million d'échantillons avec des masques au niveau pixel intégrés dans des chaînes de raisonnement issues de multiples sources. Nous proposons également TerraScope-Bench, le premier benchmark pour le raisonnement géospatial ancré sur les pixels, comprenant six sous-tâches évaluant à la fois la précision des réponses et la qualité des masques pour garantir un raisonnement authentiquement ancré sur les pixels. Les expériences montrent que TerraScope surpasse significativement les VLM existants en raisonnement géospatial ancré sur les pixels tout en fournissant des preuves visuelles interprétables.
English
Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.