TerraScope: Visueel Redeneren op Pixelbasis voor Aardobservatie

Samenvatting

Vision-language models (VLMs) tonen veelbelovende resultaten in aardobservatie (EO), maar hebben moeite met taken die complexe ruimtelijke redenering vereisen die verankerd is in precieze pixelgebaseerde visuele representaties. Om dit probleem aan te pakken, introduceren we TerraScope, een uniforme VLM die pixelgegronde geo-ruimtelijke redenering biedt met twee belangrijke capaciteiten: (1) modaal-flexibele redenering: het verwerkt invoer van één modaliteit (optisch of SAR) en fuseert verschillende modaliteiten adaptief in het redeneerproces wanneer beide beschikbaar zijn; (2) multi-temporele redenering: het integreert temporele sequenties voor veranderingsanalyse over meerdere tijdstippen. Daarnaast hebben we Terra-CoT samengesteld, een grootschalige dataset met 1 miljoen samples met pixelgebaseerde maskers die zijn ingebed in redeneerketens uit meerdere bronnen. We stellen ook TerraScope-Bench voor, de eerste benchmark voor pixelgegronde geo-ruimtelijke redenering met zes sub-taken die zowel de nauwkeurigheid van het antwoord als de maskerkwaliteit evalueert om authentieke pixelgegronde redenering te waarborgen. Experimenten tonen aan dat TerraScope aanzienlijk beter presteert dan bestaande VLMs op het gebied van pixelgegronde geo-ruimtelijke redenering, terwijl het interpreteerbaar visueel bewijs levert.

English

Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.

TerraScope: Visueel Redeneren op Pixelbasis voor Aardobservatie

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Samenvatting

Support