SAM 3: 개념을 활용한 모든 것 분할
SAM 3: Segment Anything with Concepts
November 20, 2025
저자: Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, Shoubhik Debnath, Ronghang Hu, Didac Suris, Chaitanya Ryali, Kalyan Vasudev Alwala, Haitham Khedr, Andrew Huang, Jie Lei, Tengyu Ma, Baishan Guo, Arpit Kalla, Markus Marks, Joseph Greer, Meng Wang, Peize Sun, Roman Rädle, Triantafyllos Afouras, Effrosyni Mavroudi, Katherine Xu, Tsung-Han Wu, Yu Zhou, Liliane Momeni, Rishi Hazra, Shuangrui Ding, Sagar Vaze, Francois Porcher, Feng Li, Siyuan Li, Aishwarya Kamath, Ho Kei Cheng, Piotr Dollár, Nikhila Ravi, Kate Saenko, Pengchuan Zhang, Christoph Feichtenhofer
cs.AI
초록
우리는 개념 프롬프트(짧은 명사구(예: "노란 스쿨버스"), 이미지 예시, 또는 둘의 조합)를 기반으로 이미지와 비디오에서 객체를 감지, 분할, 추적하는 통합 모델인 Segment Anything Model(SAM) 3을 제안합니다. 프롬프트 가능 개념 분할(PCS)은 이러한 프롬프트를 입력받아 일치하는 모든 객체 인스턴스에 대한 분할 마스크와 고유 식별자를 반환합니다. PCS를 발전시키기 위해 우리는 이미지와 비디오 전반에 걸쳐 난제 예시를 포함한 400만 개의 고유 개념 레이블로 구성된 고품질 데이터셋을 생성하는 확장 가능한 데이터 엔진을 구축했습니다. 우리 모델은 단일 백본을 공유하는 이미지 수준 검출기와 메모리 기반 비디오 추적기로 구성됩니다. 인식과 위치 파악은 존재 감지 헤드를 통해 분리되어 검출 정확도를 향상시킵니다. SAM 3은 이미지 및 비디오 PCS 모두에서 기존 시스템의 정확도를 두 배로 높이며, 시각적 분할 작업에 대한 기존 SAM의 성능을 개선합니다. 우리는 SAM 3과 프롬프트 가능 개념 분할을 위한 새로운 벤치마크인 Segment Anything with Concepts(SA-Co)를 오픈 소스로 공개합니다.
English
We present Segment Anything Model (SAM) 3, a unified model that detects, segments, and tracks objects in images and videos based on concept prompts, which we define as either short noun phrases (e.g., "yellow school bus"), image exemplars, or a combination of both. Promptable Concept Segmentation (PCS) takes such prompts and returns segmentation masks and unique identities for all matching object instances. To advance PCS, we build a scalable data engine that produces a high-quality dataset with 4M unique concept labels, including hard negatives, across images and videos. Our model consists of an image-level detector and a memory-based video tracker that share a single backbone. Recognition and localization are decoupled with a presence head, which boosts detection accuracy. SAM 3 doubles the accuracy of existing systems in both image and video PCS, and improves previous SAM capabilities on visual segmentation tasks. We open source SAM 3 along with our new Segment Anything with Concepts (SA-Co) benchmark for promptable concept segmentation.