効率的なトラックアニシング
Efficient Track Anything
November 28, 2024
著者: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI
要旨
Segment Anything Model 2(SAM 2)は、ビデオオブジェクトのセグメンテーションとトラッキングにおいて強力なツールとして登場しています。SAM 2の印象的なビデオオブジェクトセグメンテーション性能を推進する主要な要素には、フレーム特徴の抽出のための大規模な多段画像エンコーダーと、過去のフレームからのメモリコンテキストを保存して現在のフレームセグメンテーションを支援するメモリメカニズムが含まれています。多段画像エンコーダーやメモリモジュールの高い計算複雑さは、モバイルデバイス上でのビデオオブジェクトセグメンテーションなどの実世界のタスクでの応用を制限してきました。この制限に対処するために、低遅延とモデルサイズの小さな高品質な結果を生成する軽量なトラックアニシングモデルであるEfficientTAMsを提案します。私たちのアイデアは、ビデオオブジェクトセグメンテーションのための画像エンコーダーとして平易で非階層的なVision Transformer(ViT)を再検討し、現在のフレームセグメンテーションのためのフレーム特徴抽出とメモリ計算の複雑さを削減する効率的なメモリモジュールを導入することに基づいています。私たちは、バニラの軽量ViTsと効率的なメモリモジュールを使用してEfficientTAMsを構築し、ビデオオブジェクトセグメンテーションとトラックアニシングタスクのためにSA-1BおよびSA-Vデータセットでモデルをトレーニングします。セミ監督VOSやプロンプト可能なビデオセグメンテーションを含む複数のビデオセグメンテーションベンチマークで評価し、提案されたEfficientTAMがバニラViTでSAM 2モデル(HieraB+SAM 2)と比較可能な性能を発揮し、A100で約2倍の高速化とパラメータ削減率の約2.4倍を達成することを確認しました。セグメントアニシング画像タスクでは、EfficientTAMsがオリジナルのSAMよりも有利な性能を発揮し、A100で約20倍の高速化とパラメータ削減率の約20倍を達成しています。iPhone 15 Pro Maxなどのモバイルデバイスでは、EfficientTAMsが、合理的な品質でビデオオブジェクトセグメンテーションを実行するために約10 FPSで動作することができ、小さなモデルのオンデバイスビデオオブジェクトセグメンテーションアプリケーションの可能性を示しています。
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video
object segmentation and tracking anything. Key components of SAM 2 that drive
the impressive video object segmentation performance include a large multistage
image encoder for frame feature extraction and a memory mechanism that stores
memory contexts from past frames to help current frame segmentation. The high
computation complexity of multistage image encoder and memory module has
limited its applications in real-world tasks, e.g., video object segmentation
on mobile devices. To address this limitation, we propose EfficientTAMs,
lightweight track anything models that produce high-quality results with low
latency and model size. Our idea is based on revisiting the plain,
nonhierarchical Vision Transformer (ViT) as an image encoder for video object
segmentation, and introducing an efficient memory module, which reduces the
complexity for both frame feature extraction and memory computation for current
frame segmentation. We take vanilla lightweight ViTs and efficient memory
module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets
for video object segmentation and track anything tasks. We evaluate on multiple
video segmentation benchmarks including semi-supervised VOS and promptable
video segmentation, and find that our proposed EfficientTAM with vanilla ViT
perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and
~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs
also perform favorably over original SAM with ~20x speedup on A100 and ~20x
parameter reduction. On mobile devices such as iPhone 15 Pro Max, our
EfficientTAMs can run at ~10 FPS for performing video object segmentation with
reasonable quality, highlighting the capability of small models for on-device
video object segmentation applications.Summary
AI-Generated Summary