DynamicVis : Un modèle de fondation visuel efficace et général pour la compréhension des images de télédétection
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
March 20, 2025
Auteurs: Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
cs.AI
Résumé
Les progrès de la technologie de télédétection ont amélioré la résolution spatiale des images satellitaires, permettant des représentations visuelles plus détaillées pour diverses interprétations. Cependant, les méthodes existantes montrent des capacités de généralisation limitées à travers différentes applications. Bien que certains modèles de base contemporains démontrent un potentiel, ils sont freinés par une adaptabilité insuffisante entre les tâches et traitent principalement des images à faible résolution de tailles restreintes, ne parvenant ainsi pas à exploiter pleinement les données à haute résolution ou à tirer parti de la sémantique globale des scènes étendues. De manière cruciale, les images de télédétection diffèrent fondamentalement des images naturelles, car les cibles principales au premier plan (par exemple, les objets maritimes, les structures artificielles) occupent souvent des proportions spatiales minimales (~1 %) et présentent des distributions clairsemées. Modéliser efficacement des connaissances généralisables entre les tâches à partir de tokens 2D de grande longueur (~100 000) constitue un défi majeur mais reste essentiel pour la compréhension des images de télédétection. Motivés par les mécanismes d'attention sélective inhérents au système visuel humain, nous proposons DynamicVis, un modèle de base de perception visuelle dynamique pour les images de télédétection. Le cadre intègre une nouvelle architecture de perception régionale dynamique basée sur le modèle d'état sélectif, qui équilibre stratégiquement l'extraction de détails localisés avec l'intégration contextuelle globale, permettant un encodage efficace sur le plan computationnel des données à grande échelle tout en maintenant une scalabilité architecturale. Pour améliorer le transfert de connaissances entre les tâches, nous introduisons un paradigme d'apprentissage multi-instances utilisant des représentations de méta-embeddings, entraîné sur des annotations à l'échelle de millions de régions. Les évaluations sur neuf tâches en aval démontrent la polyvalence du modèle. DynamicVis réalise une modélisation de caractéristiques à plusieurs niveaux avec une efficacité exceptionnelle, traitant des pixels (2048x2048) avec une latence de 97 ms (6 % de celle de ViT) et une mémoire GPU de 833 Mo (3 % de celle de ViT).
English
The advancement of remote sensing technology has improved the spatial
resolution of satellite imagery, facilitating more detailed visual
representations for diverse interpretations. However, existing methods exhibit
limited generalization capabilities across varied applications. While some
contemporary foundation models demonstrate potential, they are hindered by
insufficient cross-task adaptability and primarily process low-resolution
imagery of restricted sizes, thus failing to fully exploit high-resolution data
or leverage comprehensive large-scene semantics. Crucially, remote sensing
imagery differs fundamentally from natural images, as key foreground targets
(eg., maritime objects, artificial structures) often occupy minimal spatial
proportions (~1%) and exhibit sparse distributions. Efficiently modeling
cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a
significant challenge yet remains critical for remote sensing image
understanding. Motivated by the selective attention mechanisms inherent to the
human visual system, we propose DynamicVis, a dynamic visual perception
foundation model for remote sensing imagery. The framework integrates a novel
dynamic region perception backbone based on the selective state space model,
which strategically balances localized detail extraction with global contextual
integration, enabling computationally efficient encoding of large-scale data
while maintaining architectural scalability. To enhance cross-task knowledge
transferring, we introduce a multi-instance learning paradigm utilizing
meta-embedding representations, trained on million-scale region-level
annotations. Evaluations across nine downstream tasks demonstrate the model's
versatility. DynamicVis achieves multi-level feature modeling with exceptional
efficiency, processing (2048x2048) pixels with 97 ms latency (6% of ViT's) and
833 MB GPU memory (3% of ViT's).Summary
AI-Generated Summary