SegEarth-OV3: Explorando o SAM 3 para Segmentação Semântica de Vocabulário Aberto em Imagens de Sensoriamento Remoto
SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
December 9, 2025
Autores: Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao
cs.AI
Resumo
A maioria dos métodos existentes para Segmentação Semântica de Vocabulário Aberto (OVSS) sem treinamento é baseada no CLIP. Embora essas abordagens tenham feito progressos, elas frequentemente enfrentam desafios na localização precisa ou exigem pipelines complexos para combinar módulos separados, especialmente em cenários de sensoriamento remoto onde existem inúmeros alvos densos e pequenos. Recentemente, o Segment Anything Model 3 (SAM 3) foi proposto, unificando segmentação e reconhecimento em uma estrutura acionável por prompts. Neste artigo, apresentamos uma exploração preliminar da aplicação do SAM 3 à tarefa de OVSS de sensoriamento remoto sem qualquer treinamento. Primeiro, implementamos uma estratégia de fusão de máscaras que combina as saídas do cabeçalho de segmentação semântica do SAM 3 e do decodificador Transformer (cabeçalho de instância). Isso nos permite aproveitar os pontos fortes de ambos os cabeçalhos para uma melhor cobertura do terreno. Segundo, utilizamos a pontuação de presença do cabeçalho de presença para filtrar categorias que não existem na cena, reduzindo falsos positivos causados pelos vastos tamanhos de vocabulário e processamento em nível de *patch* em cenas geoespaciais. Avaliamos nosso método em extensos conjuntos de dados de sensoriamento remoto. Os experimentos mostram que esta adaptação simples alcança um desempenho promissor, demonstrando o potencial do SAM 3 para OVSS de sensoriamento remoto. Nosso código está disponível em https://github.com/earth-insights/SegEarth-OV-3.
English
Most existing methods for training-free Open-Vocabulary Semantic Segmentation (OVSS) are based on CLIP. While these approaches have made progress, they often face challenges in precise localization or require complex pipelines to combine separate modules, especially in remote sensing scenarios where numerous dense and small targets are present. Recently, Segment Anything Model 3 (SAM 3) was proposed, unifying segmentation and recognition in a promptable framework. In this paper, we present a preliminary exploration of applying SAM 3 to the remote sensing OVSS task without any training. First, we implement a mask fusion strategy that combines the outputs from SAM 3's semantic segmentation head and the Transformer decoder (instance head). This allows us to leverage the strengths of both heads for better land coverage. Second, we utilize the presence score from the presence head to filter out categories that do not exist in the scene, reducing false positives caused by the vast vocabulary sizes and patch-level processing in geospatial scenes. We evaluate our method on extensive remote sensing datasets. Experiments show that this simple adaptation achieves promising performance, demonstrating the potential of SAM 3 for remote sensing OVSS. Our code is released at https://github.com/earth-insights/SegEarth-OV-3.