Die SAM2-zu-SAM3-Lücke in der Segment-Anything-Modellfamilie: Warum promptbasierte Expertise bei konzeptgetriebener Bildsegmentierung versagt
The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation
December 4, 2025
papers.authors: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI
papers.abstract
Diese Arbeit untersucht die grundlegende Diskontinuität zwischen den beiden neuesten Segment-Anything-Modellen: SAM2 und SAM3. Wir erläutern, warum sich die Expertise der prompt-basierten Segmentierung von SAM2 nicht auf das multimodale, konzeptgetriebene Paradigma von SAM3 übertragen lässt. SAM2 operiert über räumliche Prompts – Punkte, Boxen und Masken – und erzeugt eine rein geometrische und temporale Segmentierung. Im Gegensatz dazu führt SAM3 eine vereinheitlichte Vision-Sprache-Architektur ein, die open-vocabulary Reasoning, semantische Verankerung, kontrastive Ausrichtung und exemplarbasiertes Konzeptverständnis ermöglicht. Wir strukturieren diese Analyse anhand von fünf Kernkomponenten: (1) ein konzeptioneller Bruch zwischen prompt-basierter und konzeptbasierter Segmentierung, der die räumliche Prompt-Semantik von SAM2 der multimodalen Fusion und textkonditionierten Maskengenerierung von SAM3 gegenüberstellt; (2) Architektonische Divergenz, die das reine Vision-Temporal-Design von SAM2 gegenüber der Integration von Vision-Sprache-Encodern, Geometrie- und Exemplar-Encodern, Fusionsmodulen, DETR-artigen Decodern, Objekt-Queries und Mehrdeutigkeitsbehandlung via Mixture-of-Experts in SAM3 detailliert; (3) Unterschiede bei Datensätzen und Annotationen, die die SA-V-Videomasken von SAM2 den multimodal konzeptannotierten Korpora von SAM3 gegenüberstellt; (4) Unterschiede im Training und bei Hyperparametern, die zeigen, warum das Optimierungswissen von SAM2 nicht auf SAM3 anwendbar ist; und (5) Evaluation, Metriken und Fehlermodi, die den Übergang von geometrischen IoU-Metriken zur semantischen, open-vocabulary Evaluation skizzieren. Gemeinsam etablieren diese Analysen SAM3 als eine neue Klasse von Segmentierungs-Foundation-Models und weisen zukünftige Richtungen für die aufstrebende Ära der konzeptgetriebenen Segmentierung auf.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.