ChatPaper.aiChatPaper

Segment Anything ModelファミリーにおけるSAM2からSAM3へのギャップ:概念駆動型画像セグメンテーションにおけるプロンプトベース専門性の限界

The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation

December 4, 2025
著者: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI

要旨

本論文は、最新の2つのSegment Anything Model(SAM2とSAM3)の間にある根本的な非連続性を調査する。我々は、プロンプトベースセグメンテーションに関するSAM2の専門知が、なぜSAM3のマルチモーダル概念駆動パラダイムに転移しないのかを説明する。SAM2は空間プロンプト(点、ボックス、マスク)を介して動作し、純粋に幾何学的・時間的なセグメンテーションを生成する。対照的に、SAM3はオープン語彙推論、意味的グラウンディング、対比アラインメント、事例ベース概念理解を可能にする統一された視覚言語アーキテクチャを導入する。本分析は以下の5つの核心的構成要素に沿って構造化する:(1) プロンプトベースと概念ベースのセグメンテーション間の概念的断絶:SAM2の空間プロンプト意味論と、SAM3のマルチモーダル融合およびテキスト条件付きマスク生成を対比。(2) アーキテクチャの相違:SAM2の純粋視覚-時間設計と、SAM3における視覚言語エンコーダ、幾何学・事例エンコーダ、融合モジュール、DETRスタイルデコーダ、オブジェクトクエリ、Mixture-of-Expertsによる曖昧性処理の統合を詳細化。(3) データセットとアノテーションの差異:SAM2のSA-Vビデオマスクと、SAM3のマルチモーダル概念注釈付きコーパスを対比。(4) 訓練とハイパーパラメータの区別:SAM2の最適化知識がSAM3に適用できない理由を提示。(5) 評価、指標、失敗モード:幾何学的IoU指標から意味的・オープン語彙評価への移行を概説。これらの分析を総合し、SAM3を新たなクラスのセグメンテーション基盤モデルとして位置付け、新興する概念駆動セグメンテーション時代の将来方向を図示する。
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.
PDF02December 10, 2025