ChatPaper.aiChatPaper

L'écart entre SAM2 et SAM3 dans la famille Segment Anything Model : Pourquoi l'expertise basée sur l'invite échoue dans la segmentation d'images pilotée par les concepts

The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation

December 4, 2025
papers.authors: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI

papers.abstract

Ce document étudie la discontinuité fondamentale entre les deux derniers modèles Segment Anything : SAM2 et SAM3. Nous expliquons pourquoi l'expertise en segmentation par prompt de SAM2 ne se transpose pas au paradigme conceptuel multimodal de SAM3. SAM2 fonctionne via des prompts spatiaux (points, boîtes, masques) produisant une segmentation purement géométrique et temporelle. En revanche, SAM3 introduit une architecture unifiée vision-langage capable de raisonnement en vocabulaire ouvert, d'ancrage sémantique, d'alignement contrastif et de compréhension conceptuelle par exemplaires. Nous structurons cette analyse autour de cinq composantes principales : (1) une Rupture Conceptuelle entre la Segmentation par Prompt et la Segmentation par Concept, contrastant la sémantique des prompts spatiaux de SAM2 avec la fusion multimodale et la génération de masques conditionnés par le texte de SAM3 ; (2) une Divergence Architecturale, détaillant la conception purement visuelle et temporelle de SAM2 par rapport à l'intégration dans SAM3 d'encodeurs vision-langage, d'encodeurs géométriques et d'exemplaires, de modules de fusion, de décodeurs de type DETR, de requêtes d'objets et de gestion de l'ambiguïté via un mélange d'experts (Mixture-of-Experts) ; (3) les Différences de Jeux de Données et d'Annotations, contrastant les masques vidéo SA-1B de SAM2 avec les corpus annotés de concepts multimodaux de SAM3 ; (4) les Distinctions en matière d'Entraînement et d'Hyperparamètres, montrant pourquoi les connaissances d'optimisation de SAM2 ne s'appliquent pas à SAM3 ; et (5) l'Évaluation, les Métriques et les Modes d'Échec, décrivant la transition des métriques géométriques d'IoU vers une évaluation sémantique en vocabulaire ouvert. Ensemble, ces analyses établissent SAM3 comme une nouvelle classe de modèle fondationnel de segmentation et tracent les orientations futures pour l'ère émergente de la segmentation pilotée par les concepts.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.
PDF02December 10, 2025