SMITE: 時間内のセグメント化
SMITE: Segment Me In TimE
October 24, 2024
著者: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI
要旨
ビデオ内のオブジェクトをセグメンテーションすることは、重要な課題を提起します。各ピクセルは正確にラベル付けされなければならず、これらのラベルはフレーム間で一貫していなければなりません。セグメンテーションが任意の粒度で行われる場合、つまりセグメントの数が任意に変化し、マスクが1つまたは数枚のサンプル画像に基づいて定義される場合、難易度は増します。本論文では、事前に訓練されたテキストから画像への拡散モデルに追加のトラッキングメカニズムを組み合わせることで、この問題に取り組みます。我々の手法が様々なセグメンテーションシナリオを効果的に管理し、最先端の代替手法を凌駕することを示します。
English
Segmenting an object in a video presents significant challenges. Each pixel
must be accurately labelled, and these labels must remain consistent across
frames. The difficulty increases when the segmentation is with arbitrary
granularity, meaning the number of segments can vary arbitrarily, and masks are
defined based on only one or a few sample images. In this paper, we address
this issue by employing a pre-trained text to image diffusion model
supplemented with an additional tracking mechanism. We demonstrate that our
approach can effectively manage various segmentation scenarios and outperforms
state-of-the-art alternatives.Summary
AI-Generated Summary