DynamicVis: Эффективная и универсальная визуальная базовая модель для анализа изображений дистанционного зондирования
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
March 20, 2025
Авторы: Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
cs.AI
Аннотация
Развитие технологий дистанционного зондирования повысило пространственное разрешение спутниковых изображений, что способствует созданию более детализированных визуальных представлений для разнообразных интерпретаций. Однако существующие методы демонстрируют ограниченные возможности обобщения для различных приложений. Хотя некоторые современные базовые модели показывают потенциал, они сталкиваются с недостаточной адаптивностью к кросс-задачам и в основном обрабатывают изображения низкого разрешения ограниченного размера, что не позволяет в полной мере использовать данные высокого разрешения или учитывать семантику крупных сцен. Ключевым моментом является то, что спутниковые изображения принципиально отличаются от естественных изображений, так как ключевые объекты переднего плана (например, морские объекты, искусственные сооружения) часто занимают минимальную пространственную долю (~1%) и имеют разреженное распределение. Эффективное моделирование обобщаемых знаний для кросс-задач на основе длинных 2D-токенов (~100 000) представляет собой значительную проблему, но остается критически важным для понимания спутниковых изображений. Вдохновленные механизмами избирательного внимания, присущими человеческой зрительной системе, мы предлагаем DynamicVis — динамическую базовую модель визуального восприятия для спутниковых изображений. Этот фреймворк интегрирует новую динамическую основу для восприятия регионов, основанную на модели избирательного пространства состояний, которая стратегически балансирует извлечение локальных деталей с интеграцией глобального контекста, обеспечивая вычислительно эффективное кодирование крупномасштабных данных при сохранении масштабируемости архитектуры. Для улучшения передачи знаний между задачами мы вводим парадигму обучения с множеством экземпляров, использующую мета-эмбеддинговые представления, обученные на миллионных аннотациях на уровне регионов. Оценки на девяти последующих задачах демонстрируют универсальность модели. DynamicVis достигает многоуровневого моделирования признаков с исключительной эффективностью, обрабатывая изображения размером (2048x2048) пикселей с задержкой 97 мс (6% от ViT) и использованием 833 МБ видеопамяти GPU (3% от ViT).
English
The advancement of remote sensing technology has improved the spatial
resolution of satellite imagery, facilitating more detailed visual
representations for diverse interpretations. However, existing methods exhibit
limited generalization capabilities across varied applications. While some
contemporary foundation models demonstrate potential, they are hindered by
insufficient cross-task adaptability and primarily process low-resolution
imagery of restricted sizes, thus failing to fully exploit high-resolution data
or leverage comprehensive large-scene semantics. Crucially, remote sensing
imagery differs fundamentally from natural images, as key foreground targets
(eg., maritime objects, artificial structures) often occupy minimal spatial
proportions (~1%) and exhibit sparse distributions. Efficiently modeling
cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a
significant challenge yet remains critical for remote sensing image
understanding. Motivated by the selective attention mechanisms inherent to the
human visual system, we propose DynamicVis, a dynamic visual perception
foundation model for remote sensing imagery. The framework integrates a novel
dynamic region perception backbone based on the selective state space model,
which strategically balances localized detail extraction with global contextual
integration, enabling computationally efficient encoding of large-scale data
while maintaining architectural scalability. To enhance cross-task knowledge
transferring, we introduce a multi-instance learning paradigm utilizing
meta-embedding representations, trained on million-scale region-level
annotations. Evaluations across nine downstream tasks demonstrate the model's
versatility. DynamicVis achieves multi-level feature modeling with exceptional
efficiency, processing (2048x2048) pixels with 97 ms latency (6% of ViT's) and
833 MB GPU memory (3% of ViT's).Summary
AI-Generated Summary