ChatPaper.aiChatPaper

DynamicVis: Um Modelo Visual Fundamental Eficiente e Geral para Compreensão de Imagens de Sensoriamento Remoto

DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

March 20, 2025
Autores: Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
cs.AI

Resumo

O avanço da tecnologia de sensoriamento remoto melhorou a resolução espacial das imagens de satélite, facilitando representações visuais mais detalhadas para diversas interpretações. No entanto, os métodos existentes apresentam capacidades limitadas de generalização em aplicações variadas. Embora alguns modelos fundamentais contemporâneos demonstrem potencial, eles são prejudicados pela adaptabilidade insuficiente entre tarefas e processam principalmente imagens de baixa resolução com tamanhos restritos, falhando em explorar plenamente dados de alta resolução ou aproveitar a semântica abrangente de cenas amplas. Crucialmente, as imagens de sensoriamento remoto diferem fundamentalmente das imagens naturais, pois os principais alvos em primeiro plano (por exemplo, objetos marítimos, estruturas artificiais) frequentemente ocupam proporções espaciais mínimas (~1%) e exibem distribuições esparsas. Modelar eficientemente o conhecimento generalizável entre tarefas a partir de tokens 2D extensos (~100.000) representa um desafio significativo, mas permanece crítico para a compreensão de imagens de sensoriamento remoto. Motivados pelos mecanismos de atenção seletiva inerentes ao sistema visual humano, propomos o DynamicVis, um modelo fundamental de percepção visual dinâmica para imagens de sensoriamento remoto. O framework integra uma nova estrutura de percepção de região dinâmica baseada no modelo de espaço de estados seletivo, que equilibra estrategicamente a extração de detalhes localizados com a integração contextual global, permitindo a codificação computacionalmente eficiente de dados em larga escala enquanto mantém a escalabilidade arquitetônica. Para aprimorar a transferência de conhecimento entre tarefas, introduzimos um paradigma de aprendizado multi-instância utilizando representações de meta-embeddings, treinadas em anotações em nível de região em escala de milhões. Avaliações em nove tarefas subsequentes demonstram a versatilidade do modelo. O DynamicVis alcança a modelagem de características em múltiplos níveis com eficiência excepcional, processando pixels (2048x2048) com latência de 97 ms (6% do ViT) e uso de memória GPU de 833 MB (3% do ViT).
English
The advancement of remote sensing technology has improved the spatial resolution of satellite imagery, facilitating more detailed visual representations for diverse interpretations. However, existing methods exhibit limited generalization capabilities across varied applications. While some contemporary foundation models demonstrate potential, they are hindered by insufficient cross-task adaptability and primarily process low-resolution imagery of restricted sizes, thus failing to fully exploit high-resolution data or leverage comprehensive large-scene semantics. Crucially, remote sensing imagery differs fundamentally from natural images, as key foreground targets (eg., maritime objects, artificial structures) often occupy minimal spatial proportions (~1%) and exhibit sparse distributions. Efficiently modeling cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a significant challenge yet remains critical for remote sensing image understanding. Motivated by the selective attention mechanisms inherent to the human visual system, we propose DynamicVis, a dynamic visual perception foundation model for remote sensing imagery. The framework integrates a novel dynamic region perception backbone based on the selective state space model, which strategically balances localized detail extraction with global contextual integration, enabling computationally efficient encoding of large-scale data while maintaining architectural scalability. To enhance cross-task knowledge transferring, we introduce a multi-instance learning paradigm utilizing meta-embedding representations, trained on million-scale region-level annotations. Evaluations across nine downstream tasks demonstrate the model's versatility. DynamicVis achieves multi-level feature modeling with exceptional efficiency, processing (2048x2048) pixels with 97 ms latency (6% of ViT's) and 833 MB GPU memory (3% of ViT's).

Summary

AI-Generated Summary

PDF02March 25, 2025