SegEarth-OV3: 원격 탐사 영상에서 개방형 어휘 의미 분할을 위한 SAM 3 탐구
SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
December 9, 2025
저자: Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao
cs.AI
초록
기존의 훈련 없이 수행하는 개방형 어휘 의미 분할(OVSS) 방법 대부분은 CLIP에 기반을 두고 있습니다. 이러한 접근법들이 발전을 이루었지만, 특히 원격 탐사 환경에서 수많은 밀집된 소형 대상이 존재하는 경우 정확한 위치 파악에 어려움을 겪거나 별도의 모듈을 결합하기 위해 복잡한 파이프라인이 필요한 경우가 많습니다. 최근에는 분할과 인식을 프롬프트 기반 프레임워크로 통합한 Segment Anything Model 3(SAM 3)이 제안되었습니다. 본 논문에서는 원격 탐사 OVSS 작업에 SAM 3를 적용하는 예비 탐색을 훈련 과정 없이 수행합니다. 첫째, SAM 3의 의미 분할 헤드와 Transformer 디코더(인스턴스 헤드)의 출력을 결합하는 마스크 융합 전략을 구현합니다. 이를 통해 두 헤드의 장점을 활용하여 토지 피복 정보를 개선할 수 있습니다. 둘째, 존재 여부 헤드의 presence score를 활용하여 장면에 존재하지 않는 범주를 필터링함으로써, 지리 공간 장면의 방대한 어휘 집합과 패치 수준 처리로 인한 오탐지를 줄입니다. 우리는 광범위한 원격 탐사 데이터 세트에서 본 방법을 평가합니다. 실험 결과, 이 간단한 적용이 유망한 성능을 달성하여 원격 탐사 OVSS에 대한 SAM 3의 잠재력을 입증하였습니다. 코드는 https://github.com/earth-insights/SegEarth-OV-3에서 공개됩니다.
English
Most existing methods for training-free Open-Vocabulary Semantic Segmentation (OVSS) are based on CLIP. While these approaches have made progress, they often face challenges in precise localization or require complex pipelines to combine separate modules, especially in remote sensing scenarios where numerous dense and small targets are present. Recently, Segment Anything Model 3 (SAM 3) was proposed, unifying segmentation and recognition in a promptable framework. In this paper, we present a preliminary exploration of applying SAM 3 to the remote sensing OVSS task without any training. First, we implement a mask fusion strategy that combines the outputs from SAM 3's semantic segmentation head and the Transformer decoder (instance head). This allows us to leverage the strengths of both heads for better land coverage. Second, we utilize the presence score from the presence head to filter out categories that do not exist in the scene, reducing false positives caused by the vast vocabulary sizes and patch-level processing in geospatial scenes. We evaluate our method on extensive remote sensing datasets. Experiments show that this simple adaptation achieves promising performance, demonstrating the potential of SAM 3 for remote sensing OVSS. Our code is released at https://github.com/earth-insights/SegEarth-OV-3.