ワンショットによるSegment Anything Modelのパーソナライゼーション
Personalize Segment Anything Model with One Shot
May 4, 2023
著者: Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li
cs.AI
要旨
大規模データによる事前学習を原動力として、Segment Anything Model(SAM)は強力でプロンプト可能なフレームワークとして実証され、セグメンテーションモデルに革命をもたらしました。その汎用性にもかかわらず、人手によるプロンプトなしで特定の視覚概念にSAMをカスタマイズする方法は十分に探求されていません。例えば、異なる画像でペットの犬を自動的にセグメント化するといったケースです。本論文では、SAMのためのトレーニング不要のパーソナライゼーションアプローチを提案し、PerSAMと名付けました。参照マスク付きの単一画像のみが与えられた場合、PerSAMはまず位置の事前情報を用いてターゲット概念を特定し、ターゲット誘導型アテンション、ターゲット意味的プロンプティング、およびカスケード型後処理リファインメントという3つの技術を介して、他の画像や動画内でそれをセグメント化します。これにより、トレーニングを一切行わずにSAMを個人使用に適応させます。さらに、マスクの曖昧さを軽減するために、効率的なワンショットファインチューニングバリアントであるPerSAM-Fを提示します。SAM全体を凍結し、マルチスケールマスクのための2つの学習可能な重みを導入し、わずか10秒で2つのパラメータをトレーニングして性能を向上させます。我々の有効性を実証するために、パーソナライゼーション評価のための新しいセグメンテーションデータセットPerSegを構築し、競争力のある性能でビデオオブジェクトセグメンテーションに我々の手法をテストしました。さらに、我々のアプローチはDreamBoothを強化し、Stable Diffusionをテキストから画像生成のためのパーソナライゼーションに活用し、背景の干渉を排除してターゲットの外観学習を改善します。コードはhttps://github.com/ZrrSkywalker/Personalize-SAMで公開されています。
English
Driven by large-data pre-training, Segment Anything Model (SAM) has been
demonstrated as a powerful and promptable framework, revolutionizing the
segmentation models. Despite the generality, customizing SAM for specific
visual concepts without man-powered prompting is under explored, e.g.,
automatically segmenting your pet dog in different images. In this paper, we
propose a training-free Personalization approach for SAM, termed as PerSAM.
Given only a single image with a reference mask, PerSAM first localizes the
target concept by a location prior, and segments it within other images or
videos via three techniques: target-guided attention, target-semantic
prompting, and cascaded post-refinement. In this way, we effectively adapt SAM
for private use without any training. To further alleviate the mask ambiguity,
we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the
entire SAM, we introduce two learnable weights for multi-scale masks, only
training 2 parameters within 10 seconds for improved performance. To
demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for
personalized evaluation, and test our methods on video object segmentation with
competitive performance. Besides, our approach can also enhance DreamBooth to
personalize Stable Diffusion for text-to-image generation, which discards the
background disturbance for better target appearance learning. Code is released
at https://github.com/ZrrSkywalker/Personalize-SAM