Il divario tra SAM2 e SAM3 nella famiglia Segment Anything Model: perché l'esperienza basata sui prompt fallisce nella segmentazione concettuale delle immagini
The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation
December 4, 2025
Autori: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI
Abstract
Questo articolo indaga la discontinuità fondamentale tra i due più recenti Segment Anything Model: SAM2 e SAM3. Spieghiamo perché l'expertise nella segmentazione basata su prompt di SAM2 non si trasferisce al paradigma multimodale guidato da concetti di SAM3. SAM2 opera attraverso prompt spaziali (punti, riquadri e maschere) producendo una segmentazione puramente geometrica e temporale. Al contrario, SAM3 introduce un'architettura visione-linguaggio unificata capace di ragionamento open-vocabulary, grounding semantico, allineamento contrastivo e comprensione di concetti basata su esempi. Strutturiamo questa analisi attraverso cinque componenti fondamentali: (1) una Rottura Concettuale tra Segmentazione Basata su Prompt e Basata su Concetti, contrapponendo la semantica dei prompt spaziali di SAM2 con la fusione multimodale e la generazione di maschere condizionata da testo di SAM3; (2) Divergenza Architetturale, dettagliando il design puramente visivo-temporale di SAM2 rispetto all'integrazione in SAM3 di encoder visione-linguaggio, encoder geometrici e di esemplari, moduli di fusione, decoder in stile DETR, object query e gestione dell'ambiguità tramite Mixture-of-Experts; (3) Differenze nei Dataset e nelle Annotazioni, contrapponendo le maschere video SA-1B-V con i corpora annotati con concetti multimodali di SAM3; (4) Distinzioni nell'Addestramento e negli Iperparametri, mostrando perché la conoscenza dell'ottimizzazione di SAM2 non si applica a SAM3; e (5) Valutazione, Metriche e Modalità di Fallimento, delineando la transizione dalle metriche geometriche IoU alla valutazione semantica open-vocabulary. Insieme, queste analisi stabiliscono SAM3 come una nuova classe di modello fondazionale per la segmentazione e tracciano le direzioni future per l'emergente era della segmentazione guidata da concetti.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.