SegEarth-OV3: Verkenning van SAM 3 voor open-vocabularium semantische segmentatie in remote sensing-beelden

Samenvatting

De meeste bestaande methoden voor trainingsvrije Open Vocabulary Semantic Segmentation (OVSS) zijn gebaseerd op CLIP. Hoewel deze benaderingen vooruitgang hebben geboekt, kampen ze vaak met uitdagingen op het gebied van precieze lokalisatie of vereisen ze complexe pijplijnen om afzonderlijke modules te combineren, vooral in remote sensing-scenario's waar talrijke dichte en kleine doelen aanwezig zijn. Recentelijk werd Segment Anything Model 3 (SAM 3) voorgesteld, dat segmentatie en herkenning verenigt in een promptbaar raamwerk. In dit artikel presenteren we een eerste verkenning van de toepassing van SAM 3 op de remote sensing OVSS-taak zonder enige training. Ten eerste implementeren we een maskerfusiestrategie die de uitvoeren van de semantische segmentatiekop en de Transformer-decoder (instantiekop) van SAM 3 combineert. Hierdoor kunnen we de sterke punten van beide koppen benutten voor een betere landbedekking. Ten tweede gebruiken we de aanwezigheidsscore van de aanwezigheidskop om categorieën die niet in de scène aanwezig zijn eruit te filteren, waardoor het aantal fout-positieven wordt verminderd dat wordt veroorzaakt door de enorme vocabulaire groottes en patch-level verwerking in georuimtelijke scènes. We evalueren onze methode op uitgebreide remote sensing-datasets. Experimenten tonen aan dat deze eenvoudige aanpassing veelbelovende prestaties bereikt, wat het potentieel van SAM 3 voor remote sensing OVSS aantoont. Onze code is vrijgegeven op https://github.com/earth-insights/SegEarth-OV-3.

English

Most existing methods for training-free Open-Vocabulary Semantic Segmentation (OVSS) are based on CLIP. While these approaches have made progress, they often face challenges in precise localization or require complex pipelines to combine separate modules, especially in remote sensing scenarios where numerous dense and small targets are present. Recently, Segment Anything Model 3 (SAM 3) was proposed, unifying segmentation and recognition in a promptable framework. In this paper, we present a preliminary exploration of applying SAM 3 to the remote sensing OVSS task without any training. First, we implement a mask fusion strategy that combines the outputs from SAM 3's semantic segmentation head and the Transformer decoder (instance head). This allows us to leverage the strengths of both heads for better land coverage. Second, we utilize the presence score from the presence head to filter out categories that do not exist in the scene, reducing false positives caused by the vast vocabulary sizes and patch-level processing in geospatial scenes. We evaluate our method on extensive remote sensing datasets. Experiments show that this simple adaptation achieves promising performance, demonstrating the potential of SAM 3 for remote sensing OVSS. Our code is released at https://github.com/earth-insights/SegEarth-OV-3.

SegEarth-OV3: Verkenning van SAM 3 voor open-vocabularium semantische segmentatie in remote sensing-beelden

SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images

Samenvatting

Support