De SAM2-naar-SAM3-kloof in de Segment Anything Model-familie: Waarom op prompts gebaseerde expertise faalt bij conceptgestuurde beeldsegmentatie
The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation
December 4, 2025
Auteurs: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI
Samenvatting
Dit artikel onderzoekt de fundamentele discontinuïteit tussen de twee nieuwste Segment Anything Models: SAM2 en SAM3. We verklaren waarom de expertise in prompt-gestuurde segmentatie van SAM2 niet overdraagbaar is naar het multimodale, concept-gestuurde paradigma van SAM3. SAM2 werkt via ruimtelijke prompts (punten, vakjes en maskers) en levert puur geometrische en temporele segmentatie. Daarentegen introduceert SAM3 een uniforme vision-language-architectuur die in staat is tot open-vocabulary redenering, semantische verankering, contrastieve uitlijning en voorbeeld-gestuurd conceptbegrip. We structureren deze analyse aan de hand van vijf kerncomponenten: (1) een Conceptueel Onderscheid tussen Prompt-Gestuurde en Concept-Gestuurde Segmentatie, waarin de ruimtelijke promptsemantiek van SAM2 wordt afgezet tegen de multimodale fusie en tekst-gestuurde maskergeneratie van SAM3; (2) Architecturale Divergentie, met een gedetailleerde uiteenzetting van het pure vision-temporele ontwerp van SAM2 versus de integratie van vision-language-encoders, geometrie- en voorbeeldencoders, fuseermodules, DETR-stijl decoders, object queries, en ambiguïteitsafhandeling via Mixture-of-Experts in SAM3; (3) Verschillen in Datasets en Annotaties, waarin de SA-V videomaskers worden vergeleken met de multimodaal geannoteerde conceptencorpora van SAM3; (4) Onderscheiden in Training en Hyperparameters, waarin wordt aangetoond waarom de optimalisatiekennis van SAM2 niet van toepassing is op SAM3; en (5) Evaluatie, Metrieken en Faalwijzen, waarin de overgang van geometrische IoU-metrieken naar semantische, open-vocabulary evaluatie wordt geschetst. Gezamenlijk vestigen deze analyses SAM3 als een nieuwe klasse van segmentatiefoundationmodel en wijzen ze toekomstige richtingen aan voor het opkomende tijdperk van concept-gestuurde segmentatie.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.