ChatPaper.aiChatPaper

Segment Anything 모델 패밀리에서의 SAM2-SAM3 간극: 개념 기반 이미지 분할에서 프롬프트 기반 전문성의 한계

The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation

December 4, 2025
저자: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI

초록

본 논문은 최신 두 세그먼트 애니씽 모델인 SAM2와 SAM3 간의 근본적인 불연속성을 조사한다. 우리는 SAM2의 프롬프트 기반 분할 전문성이 왜 SAM3의 다중모달 개념 주도 패러다임으로 이전되지 않는지 설명한다. SAM2는 공간 프롬프트(점, 상자, 마스크)를 통해 작동하여 순수 기하학적 및 시간적 분할을 산출한다. 이와 대조적으로 SAM3는 개방형 어휘 추론, 의미 기반 연결, 대조 정렬 및 예시 기반 개념 이해가 가능한 통합 비전-언어 아키텍처를 도입한다. 우리는 이 분석을 다섯 가지 핵심 구성 요소를 통해 구조화한다: (1) 프롬프트 기반과 개념 기반 분할 간의 개념적 단절로, SAM2의 공간 프롬프트 의미론과 SAM3의 다중모달 융합 및 텍스트 조건 마스크 생성을 대비한다; (2) 아키텍처적 분기로, SAM2의 순수 비전-시간 설계와 SAM3의 비전-언어 인코더, 기하학 및 예시 인코더, 융합 모듈, DETR 스타일 디코더, 객체 쿼리, Mixture-of-Experts를 통한 모호성 처리의 통합을 상세히 설명한다; (3) 데이터셋 및 주석 차이로, SAM2의 SA-1B 비디오 마스크와 SAM3의 다중모달 개념 주석 코퍼스를 대비한다; (4) 훈련 및 하이퍼파라미터 차이로, SAM2 최적화 지식이 왜 SAM3에 적용되지 않는지 보여준다; (5) 평가, 메트릭 및 실패 모드로, 기하학적 IoU 메트릭에서 의미론적, 개방형 어휘 평가로의 전환을 개괄한다. 이러한 분석들을 종합하여 SAM3를 새로운 부류의 분할 기초 모델로 규정하고 부상하는 개념 주도 분할 시대의 미래 방향을 제시한다.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.
PDF02December 10, 2025