Терраскоп: Визуальное рассуждение с привязкой к пикселям для дистанционного зондирования Земли

Аннотация

Модели "визуальный язык" (VLM) показали перспективность в области дистанционного зондирования Земли (ДЗЗ), однако они испытывают трудности с задачами, требующими привязки сложных пространственных рассуждений к точным пиксельным визуальным представлениям. Для решения этой проблемы мы представляем TerraScope — унифицированную VLM, которая обеспечивает пиксельно-обоснованное геопространственное рассуждение благодаря двум ключевым возможностям: (1) модально-гибкое рассуждение: модель обрабатывает входные данные одной модальности (оптические или РЛС-данные) и адаптивно объединяет разные модальности в процесс рассуждения, когда обе доступны; (2) многовременное рассуждение: модель интегрирует временные последовательности для анализа изменений в нескольких временных точках. Кроме того, мы создали Terra-CoT, крупномасштабный набор данных, содержащий 1 миллион образцов с пиксельными масками, встроенными в цепочки рассуждений из различных источников. Мы также предлагаем TerraScope-Bench, первый эталонный тест для пиксельно-обоснованного геопространственного рассуждения с шести подзадачами, который оценивает как точность ответа, так и качество маски для обеспечения подлинного пиксельно-обоснованного рассуждения. Эксперименты показывают, что TerraScope значительно превосходит существующие VLM в задачах пиксельно-обоснованного геопространственного рассуждения, одновременно предоставляя интерпретируемые визуальные доказательства.

English

Vision-language models (VLMs) have shown promise in earth observation (EO), yet they struggle with tasks that require grounding complex spatial reasoning in precise pixel-level visual representations. To address this problem, we introduce TerraScope, a unified VLM that delivers pixel-grounded geospatial reasoning with two key capabilities: (1) modality-flexible reasoning: it handles single-modality inputs (optical or SAR) and adaptively fuses different modalities into the reasoning process when both are available; (2) multi-temporal reasoning: it integrates temporal sequences for change analysis across multiple time points. In addition, we curate Terra-CoT, a large-scale dataset containing 1 million samples with pixel-level masks embedded in reasoning chains across multiple sources. We also propose TerraScope-Bench, the first benchmark for pixel-grounded geospatial reasoning with six sub-tasks that evaluates both answer accuracy and mask quality to ensure authentic pixel-grounded reasoning. Experiments show that TerraScope significantly outperforms existing VLMs on pixel-grounded geospatial reasoning while providing interpretable visual evidence.

Терраскоп: Визуальное рассуждение с привязкой к пикселям для дистанционного зондирования Земли

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Аннотация

Support