A Lacuna entre SAM2 e SAM3 na Família Segment Anything: Por Que a Especialização Baseada em Prompt Falha na Segmentação de Imagens Orientada a Conceitos
The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation
December 4, 2025
Autores: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI
Resumo
Este artigo investiga a discontinuidade fundamental entre os dois mais recentes Segment Anything Models: SAM2 e SAM3. Explicamos por que a experiência em segmentação baseada em *prompts* do SAM2 não se transfere para o paradigma multimodal orientado a conceitos do SAM3. O SAM2 opera através de *prompts* espaciais (pontos, caixas delimitadoras e máscaras), produzindo uma segmentação puramente geométrica e temporal. Em contraste, o SAM3 introduz uma arquitetura unificada de visão e linguagem capaz de raciocínio de vocabulário aberto, fundamentação semântica, alinhamento contrastivo e compreensão de conceitos baseada em exemplares. Estruturamos esta análise em cinco componentes centrais: (1) uma Rutura Conceptual entre Segmentação Baseada em *Prompts* e Baseada em Conceitos, contrastando a semântica de *prompts* espaciais do SAM2 com a fusão multimodal e a geração de máscaras condicionada por texto do SAM3; (2) Divergência Arquitetural, detalhando o design de visão pura e temporal do SAM2 versus a integração no SAM3 de codificadores de visão-linguagem, codificadores geométricos e de exemplares, módulos de fusão, decodificadores no estilo DETR, *object queries* e tratamento de ambiguidades via *Mixture-of-Experts*; (3) Diferenças em Conjuntos de Dados e Anotações, contrastando as máscaras de vídeo do SA-1B com os corpora anotados com conceitos multimodais do SAM3; (4) Distinções no Treinamento e Hiperparâmetros, mostrando por que o conhecimento de otimização do SAM2 não se aplica ao SAM3; e (5) Avaliação, Métricas e Modos de Falha, delineando a transição das métricas geométricas de IoU para a avaliação semântica e de vocabulário aberto. Em conjunto, estas análises estabelecem o SAM3 como uma nova classe de modelo de base para segmentação e traçam direções futuras para a emergente era da segmentação orientada a conceitos.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.