ChatPaper.aiChatPaper

SAM 3: コンセプトを用いたセグメンテーション

SAM 3: Segment Anything with Concepts

November 20, 2025
著者: Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, Shoubhik Debnath, Ronghang Hu, Didac Suris, Chaitanya Ryali, Kalyan Vasudev Alwala, Haitham Khedr, Andrew Huang, Jie Lei, Tengyu Ma, Baishan Guo, Arpit Kalla, Markus Marks, Joseph Greer, Meng Wang, Peize Sun, Roman Rädle, Triantafyllos Afouras, Effrosyni Mavroudi, Katherine Xu, Tsung-Han Wu, Yu Zhou, Liliane Momeni, Rishi Hazra, Shuangrui Ding, Sagar Vaze, Francois Porcher, Feng Li, Siyuan Li, Aishwarya Kamath, Ho Kei Cheng, Piotr Dollár, Nikhila Ravi, Kate Saenko, Pengchuan Zhang, Christoph Feichtenhofer
cs.AI

要旨

我々は、概念プロンプト(「黄色いスクールバス」などの短い名詞句、画像例、またはその両方の組み合わせ)に基づいて画像や動画内のオブジェクトを検出、セグメンテーション、追跡する統一モデルであるSegment Anything Model (SAM) 3を提案する。プロンプト可能概念セグメンテーション(PCS)は、このようなプロンプトを受け取り、一致する全オブジェクトインスタンスのセグメンテーションマスクと一意の識別子を返す。PCSの進展に向け、画像と動画にわたる400万の一意な概念ラベル(困難なネガティブ例を含む)からなる高品質データセットを生成するスケーラブルなデータエンジンを構築した。本モデルは、単一のバックボーンを共有する画像レベル検出器とメモリベースの動画追跡器で構成される。認識と位置特定は存在検出ヘッドによって分離され、検出精度を向上させる。SAM 3は、画像および動画PCSにおいて既存システムの精度を2倍に高め、視覚的セグメンテーションタスクにおける従来のSAM機能を改善する。我々はSAM 3と、プロンプト可能概念セグメンテーションのための新ベンチマークSegment Anything with Concepts (SA-Co)をオープンソースとして公開する。
English
We present Segment Anything Model (SAM) 3, a unified model that detects, segments, and tracks objects in images and videos based on concept prompts, which we define as either short noun phrases (e.g., "yellow school bus"), image exemplars, or a combination of both. Promptable Concept Segmentation (PCS) takes such prompts and returns segmentation masks and unique identities for all matching object instances. To advance PCS, we build a scalable data engine that produces a high-quality dataset with 4M unique concept labels, including hard negatives, across images and videos. Our model consists of an image-level detector and a memory-based video tracker that share a single backbone. Recognition and localization are decoupled with a presence head, which boosts detection accuracy. SAM 3 doubles the accuracy of existing systems in both image and video PCS, and improves previous SAM capabilities on visual segmentation tasks. We open source SAM 3 along with our new Segment Anything with Concepts (SA-Co) benchmark for promptable concept segmentation.
PDF964December 1, 2025