ChatPaper.aiChatPaper

La Brecha entre SAM2 y SAM3 en la Familia de Modelos Segment Anything: Por Qué la Experiencia Basada en *Prompts* Falla en la Segmentación de Imágenes Basada en Conceptos

The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation

December 4, 2025
Autores: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI

Resumen

Este artículo investiga la discontinuidad fundamental entre los dos últimos Modelos de Segmentación Universal (SAM): SAM2 y SAM3. Explicamos por qué la experiencia en segmentación basada en *prompts* de SAM2 no se transfiere al paradigma multimodal impulsado por conceptos de SAM3. SAM2 opera mediante *prompts* espaciales (puntos, cuadros delimitadores y máscaras) que dan lugar a una segmentación puramente geométrica y temporal. En contraste, SAM3 introduce una arquitectura unificada de visión y lenguaje capaz de razonamiento de vocabulario abierto, fundamentación semántica, alineación contrastiva y comprensión de conceptos basada en ejemplos. Estructuramos este análisis en cinco componentes principales: (1) una Ruptura Conceptual entre la Segmentación Basada en *Prompts* y la Basada en Conceptos, contrastando la semántica de los *prompts* espaciales de SAM2 con la fusión multimodal y la generación de máscaras condicionadas por texto de SAM3; (2) Divergencia Arquitectónica, detallando el diseño de visión pura y temporal de SAM2 frente a la integración en SAM3 de codificadores de visión-lenguaje, codificadores geométricos y de ejemplos, módulos de fusión, decodificadores estilo DETR, consultas de objetos y manejo de ambigüedades mediante Mixture-of-Experts; (3) Diferencias en Conjuntos de Datos y Anotaciones, contrastando las máscaras de video de SA-1B-V con los corpus anotados con conceptos multimodales de SAM3; (4) Distinciones en Entrenamiento e Hiperparámetros, mostrando por qué el conocimiento de optimización de SAM2 no es aplicable a SAM3; y (5) Evaluación, Métricas y Modos de Falla, delineando la transición de las métricas geométricas de IoU a la evaluación semántica de vocabulario abierto. En conjunto, estos análisis establecen a SAM3 como una nueva clase de modelo base de segmentación y trazan direcciones futuras para la emergente era de la segmentación impulsada por conceptos.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.
PDF02December 10, 2025