ChatPaper.aiChatPaper

SegEarth-OV3 : Exploration de SAM 3 pour la segmentation sémantique à vocabulaire ouvert dans les images de télédétection

SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images

December 9, 2025
papers.authors: Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao
cs.AI

papers.abstract

La plupart des méthodes existantes pour la segmentation sémantique à vocabulaire ouvert (OVSS) sans entraînement reposent sur CLIP. Bien que ces approches aient réalisé des progrès, elles rencontrent souvent des difficultés de localisation précise ou nécessitent des pipelines complexes pour combiner des modules séparés, en particulier dans les scénarios de télédétection où de nombreuses cibles denses et de petite taille sont présentes. Récemment, le Segment Anything Model 3 (SAM 3) a été proposé, unifiant la segmentation et la reconnaissance dans un cadre incitable. Dans cet article, nous présentons une exploration préliminaire de l'application de SAM 3 à la tâche OVSS en télédétection sans aucun entraînement. Premièrement, nous mettons en œuvre une stratégie de fusion de masques qui combine les sorties de la tête de segmentation sémantique de SAM 3 et du décodeur Transformer (tête d'instance). Cela nous permet de tirer parti des forces des deux têtes pour une meilleure couverture du sol. Deuxièmement, nous utilisons le score de présence de la tête de présence pour filtrer les catégories absentes de la scène, réduisant ainsi les faux positifs causés par la grande taille du vocabulaire et le traitement au niveau des patchs dans les scènes géospatiales. Nous évaluons notre méthode sur de vastes ensembles de données de télédétection. Les expériences montrent que cette adaptation simple atteint des performances prometteuses, démontrant le potentiel de SAM 3 pour l'OVSS en télédétection. Notre code est disponible à l'adresse https://github.com/earth-insights/SegEarth-OV-3.
English
Most existing methods for training-free Open-Vocabulary Semantic Segmentation (OVSS) are based on CLIP. While these approaches have made progress, they often face challenges in precise localization or require complex pipelines to combine separate modules, especially in remote sensing scenarios where numerous dense and small targets are present. Recently, Segment Anything Model 3 (SAM 3) was proposed, unifying segmentation and recognition in a promptable framework. In this paper, we present a preliminary exploration of applying SAM 3 to the remote sensing OVSS task without any training. First, we implement a mask fusion strategy that combines the outputs from SAM 3's semantic segmentation head and the Transformer decoder (instance head). This allows us to leverage the strengths of both heads for better land coverage. Second, we utilize the presence score from the presence head to filter out categories that do not exist in the scene, reducing false positives caused by the vast vocabulary sizes and patch-level processing in geospatial scenes. We evaluate our method on extensive remote sensing datasets. Experiments show that this simple adaptation achieves promising performance, demonstrating the potential of SAM 3 for remote sensing OVSS. Our code is released at https://github.com/earth-insights/SegEarth-OV-3.
PDF22February 7, 2026