DynamicVis: Een efficiënt en algemeen visueel basismodel voor het begrijpen van remote sensing-beelden

Samenvatting

De vooruitgang in remote sensing-technologie heeft de ruimtelijke resolutie van satellietbeelden verbeterd, waardoor gedetailleerdere visuele representaties mogelijk zijn voor diverse interpretaties. Bestaande methoden vertonen echter beperkte generalisatiecapaciteiten over verschillende toepassingen. Hoewel sommige hedendaagse foundation models potentie tonen, worden ze gehinderd door onvoldoende aanpassingsvermogen tussen taken en verwerken ze voornamelijk laagresolutiebeelden van beperkte afmetingen, waardoor ze niet volledig profiteren van hoogresolutiedata of uitgebreide semantiek van grote scènes. Cruciaal is dat remote sensing-beelden fundamenteel verschillen van natuurlijke afbeeldingen, aangezien belangrijke voorgronddoelen (bijv. maritieme objecten, kunstmatige structuren) vaak minimale ruimtelijke proporties (~1%) innemen en een schaarse verdeling vertonen. Het efficiënt modelleren van kruistask-generalisatiekennis uit lange 2D-tokens (~100.000) vormt een aanzienlijke uitdaging, maar blijft essentieel voor het begrijpen van remote sensing-beelden. Geïnspireerd door de selectieve aandachtmechanismen van het menselijk visuele systeem, stellen we DynamicVis voor, een dynamisch visueel perceptie-foundation model voor remote sensing-beelden. Het framework integreert een nieuwe dynamische regio-perceptie-backbone gebaseerd op het selectieve toestandsruimtemodel, dat strategisch een balans vindt tussen lokale detailextractie en globale contextuele integratie, waardoor het mogelijk wordt om grootschalige data op een rekenkundig efficiënte manier te coderen terwijl de architectuur schaalbaar blijft. Om de overdracht van kruistask-kennis te verbeteren, introduceren we een multi-instance learning-paradigma dat gebruikmaakt van meta-embeddingrepresentaties, getraind op miljoenen regio-annotaties. Evaluaties over negen downstream taken demonstreren de veelzijdigheid van het model. DynamicVis bereikt modellering van meerdere niveaus van kenmerken met uitzonderlijke efficiëntie, waarbij het (2048x2048) pixels verwerkt met een latentie van 97 ms (6% van ViT) en 833 MB GPU-geheugen (3% van ViT).

English

The advancement of remote sensing technology has improved the spatial resolution of satellite imagery, facilitating more detailed visual representations for diverse interpretations. However, existing methods exhibit limited generalization capabilities across varied applications. While some contemporary foundation models demonstrate potential, they are hindered by insufficient cross-task adaptability and primarily process low-resolution imagery of restricted sizes, thus failing to fully exploit high-resolution data or leverage comprehensive large-scene semantics. Crucially, remote sensing imagery differs fundamentally from natural images, as key foreground targets (eg., maritime objects, artificial structures) often occupy minimal spatial proportions (~1%) and exhibit sparse distributions. Efficiently modeling cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a significant challenge yet remains critical for remote sensing image understanding. Motivated by the selective attention mechanisms inherent to the human visual system, we propose DynamicVis, a dynamic visual perception foundation model for remote sensing imagery. The framework integrates a novel dynamic region perception backbone based on the selective state space model, which strategically balances localized detail extraction with global contextual integration, enabling computationally efficient encoding of large-scale data while maintaining architectural scalability. To enhance cross-task knowledge transferring, we introduce a multi-instance learning paradigm utilizing meta-embedding representations, trained on million-scale region-level annotations. Evaluations across nine downstream tasks demonstrate the model's versatility. DynamicVis achieves multi-level feature modeling with exceptional efficiency, processing (2048x2048) pixels with 97 ms latency (6% of ViT's) and 833 MB GPU memory (3% of ViT's).

DynamicVis: Een efficiënt en algemeen visueel basismodel voor het begrijpen van remote sensing-beelden

DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

Samenvatting

Support