ChatPaper.aiChatPaper

Пропасть между SAM2 и SAM3 в семействе моделей Segment Anything: Почему экспертиза на основе промптов терпит неудачу в концептуально-ориентированной сегментации изображений

The SAM2-to-SAM3 Gap in the Segment Anything Model Family: Why Prompt-Based Expertise Fails in Concept-Driven Image Segmentation

December 4, 2025
Авторы: Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
cs.AI

Аннотация

В данной работе исследуется фундаментальный разрыв между двумя последними моделями Segment Anything: SAM2 и SAM3. Мы объясняем, почему экспертиза в сегментации по промптам SAM2 не переносится на мультимодальную концептуально-ориентированную парадигму SAM3. SAM2 работает через пространственные промпты — точки, боксы и маски — обеспечивая чисто геометрическую и временную сегментацию. В отличие от этого, SAM3 представляет унифицированную архитектуру «визуение-язык», способную к открытому словарному рассуждению, семантическому обоснованию, контрастивному выравниванию и пониманию концепций на основе примеров. Мы структурируем этот анализ по пяти основным компонентам: (1) Концептуальный разрыв между сегментацией по промптам и на основе концепций, противопоставляющий пространственную семантику промптов SAM2 мультимодальному слиянию и генерации масок по текстовым условиям в SAM3; (2) Архитектурное расхождение, детализирующее чисто визуально-временной дизайн SAM2 против интеграции в SAM3 кодировщиков «визуение-язык», геометрических и экземплярных кодировщиков, модулей слияния, декодеров в стиле DETR, объектных запросов и обработки неоднозначности через ансамбли экспертов (Mixture-of-Experts); (3) Различия в данных и разметке, противопоставляющие видео-маски SA-V для SAM2 мультимодальным корпусам с концептуальной разметкой для SAM3; (4) Различия в обучении и гиперпараметрах, показывающие, почему знания по оптимизации SAM2 неприменимы к SAM3; и (5) Оценка, метрики и режимы сбоев, описывающие переход от геометрических метрик IoU к семантической, открытой словарной оценке. В совокупности эти анализы устанавливают SAM3 как новый класс базовой модели сегментации и намечают будущие направления для зарождающейся эры концептуально-ориентированной сегментации.
English
This paper investigates the fundamental discontinuity between the latest two Segment Anything Models: SAM2 and SAM3. We explain why the expertise in prompt-based segmentation of SAM2 does not transfer to the multimodal concept-driven paradigm of SAM3. SAM2 operates through spatial prompts points, boxes, and masks yielding purely geometric and temporal segmentation. In contrast, SAM3 introduces a unified vision-language architecture capable of open-vocabulary reasoning, semantic grounding, contrastive alignment, and exemplar-based concept understanding. We structure this analysis through five core components: (1) a Conceptual Break Between Prompt-Based and Concept-Based Segmentation, contrasting spatial prompt semantics of SAM2 with multimodal fusion and text-conditioned mask generation of SAM3; (2) Architectural Divergence, detailing pure vision-temporal design of SAM2 versus integration of vision-language encoders, geometry and exemplar encoders, fusion modules, DETR-style decoders, object queries, and ambiguity-handling via Mixture-of-Experts in SAM3; (3) Dataset and Annotation Differences, contrasting SA-V video masks with multimodal concept-annotated corpora of SAM3; (4) Training and Hyperparameter Distinctions, showing why SAM2 optimization knowledge does not apply to SAM3; and (5) Evaluation, Metrics, and Failure Modes, outlining the transition from geometric IoU metrics to semantic, open-vocabulary evaluation. Together, these analyses establish SAM3 as a new class of segmentation foundation model and chart future directions for the emerging concept-driven segmentation era.
PDF02December 10, 2025