TerraScope: Razonamiento Visual Anclado en Píxeles para la Observación de la Tierra

Resumen

Los modelos de visión y lenguaje (VLMs) han mostrado potencial en la observación terrestre (EO), pero presentan dificultades en tareas que requieren fundamentar razonamientos espaciales complejos en representaciones visuales precisas a nivel de píxel. Para abordar este problema, presentamos TerraScope, un VLM unificado que ofrece razonamiento geoespacial anclado en píxeles con dos capacidades clave: (1) razonamiento flexible en modalidades: maneja entradas de una sola modalidad (óptica o SAR) y fusiona adaptativamente diferentes modalidades en el proceso de razonamiento cuando ambas están disponibles; (2) razonamiento multitemporal: integra secuencias temporales para análisis de cambios en múltiples puntos temporales. Adicionalmente, hemos creado Terra-CoT, un conjunto de datos a gran escala que contiene 1 millón de muestras con máscaras a nivel de píxel integradas en cadenas de razonamiento de múltiples fuentes. También proponemos TerraScope-Bench, el primer benchmark para razonamiento geoespacial anclado en píxeles con seis subtareas que evalúa tanto la precisión de las respuestas como la calidad de las máscaras para garantizar un razonamiento auténticamente anclado en píxeles. Los experimentos demuestran que TerraScope supera significativamente a los VLMs existentes en razonamiento geoespacial anclado en píxeles, proporcionando además evidencia visual interpretable.

English

Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.

TerraScope: Razonamiento Visual Anclado en Píxeles para la Observación de la Tierra

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Resumen

Support