DynamicVis: Een efficiënt en algemeen visueel basismodel voor het begrijpen van remote sensing-beelden
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
March 20, 2025
Auteurs: Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi
cs.AI
Samenvatting
De vooruitgang in remote sensing-technologie heeft de ruimtelijke resolutie van satellietbeelden verbeterd, waardoor gedetailleerdere visuele representaties mogelijk zijn voor diverse interpretaties. Bestaande methoden vertonen echter beperkte generalisatiecapaciteiten over verschillende toepassingen. Hoewel sommige hedendaagse foundation models potentie tonen, worden ze gehinderd door onvoldoende aanpassingsvermogen tussen taken en verwerken ze voornamelijk laagresolutiebeelden van beperkte afmetingen, waardoor ze niet volledig profiteren van hoogresolutiedata of uitgebreide semantiek van grote scènes. Cruciaal is dat remote sensing-beelden fundamenteel verschillen van natuurlijke afbeeldingen, aangezien belangrijke voorgronddoelen (bijv. maritieme objecten, kunstmatige structuren) vaak minimale ruimtelijke proporties (~1%) innemen en een schaarse verdeling vertonen. Het efficiënt modelleren van kruistask-generalisatiekennis uit lange 2D-tokens (~100.000) vormt een aanzienlijke uitdaging, maar blijft essentieel voor het begrijpen van remote sensing-beelden. Geïnspireerd door de selectieve aandachtmechanismen van het menselijk visuele systeem, stellen we DynamicVis voor, een dynamisch visueel perceptie-foundation model voor remote sensing-beelden. Het framework integreert een nieuwe dynamische regio-perceptie-backbone gebaseerd op het selectieve toestandsruimtemodel, dat strategisch een balans vindt tussen lokale detailextractie en globale contextuele integratie, waardoor het mogelijk wordt om grootschalige data op een rekenkundig efficiënte manier te coderen terwijl de architectuur schaalbaar blijft. Om de overdracht van kruistask-kennis te verbeteren, introduceren we een multi-instance learning-paradigma dat gebruikmaakt van meta-embeddingrepresentaties, getraind op miljoenen regio-annotaties. Evaluaties over negen downstream taken demonstreren de veelzijdigheid van het model. DynamicVis bereikt modellering van meerdere niveaus van kenmerken met uitzonderlijke efficiëntie, waarbij het (2048x2048) pixels verwerkt met een latentie van 97 ms (6% van ViT) en 833 MB GPU-geheugen (3% van ViT).
English
The advancement of remote sensing technology has improved the spatial
resolution of satellite imagery, facilitating more detailed visual
representations for diverse interpretations. However, existing methods exhibit
limited generalization capabilities across varied applications. While some
contemporary foundation models demonstrate potential, they are hindered by
insufficient cross-task adaptability and primarily process low-resolution
imagery of restricted sizes, thus failing to fully exploit high-resolution data
or leverage comprehensive large-scene semantics. Crucially, remote sensing
imagery differs fundamentally from natural images, as key foreground targets
(eg., maritime objects, artificial structures) often occupy minimal spatial
proportions (~1%) and exhibit sparse distributions. Efficiently modeling
cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a
significant challenge yet remains critical for remote sensing image
understanding. Motivated by the selective attention mechanisms inherent to the
human visual system, we propose DynamicVis, a dynamic visual perception
foundation model for remote sensing imagery. The framework integrates a novel
dynamic region perception backbone based on the selective state space model,
which strategically balances localized detail extraction with global contextual
integration, enabling computationally efficient encoding of large-scale data
while maintaining architectural scalability. To enhance cross-task knowledge
transferring, we introduce a multi-instance learning paradigm utilizing
meta-embedding representations, trained on million-scale region-level
annotations. Evaluations across nine downstream tasks demonstrate the model's
versatility. DynamicVis achieves multi-level feature modeling with exceptional
efficiency, processing (2048x2048) pixels with 97 ms latency (6% of ViT's) and
833 MB GPU memory (3% of ViT's).Summary
AI-Generated Summary