ChatPaper.aiChatPaper

効率的なトラックアニシング

Efficient Track Anything

November 28, 2024
著者: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI

要旨

Segment Anything Model 2(SAM 2)は、ビデオオブジェクトのセグメンテーションとトラッキングにおいて強力なツールとして登場しています。SAM 2の印象的なビデオオブジェクトセグメンテーション性能を推進する主要な要素には、フレーム特徴の抽出のための大規模な多段画像エンコーダーと、過去のフレームからのメモリコンテキストを保存して現在のフレームセグメンテーションを支援するメモリメカニズムが含まれています。多段画像エンコーダーやメモリモジュールの高い計算複雑さは、モバイルデバイス上でのビデオオブジェクトセグメンテーションなどの実世界のタスクでの応用を制限してきました。この制限に対処するために、低遅延とモデルサイズの小さな高品質な結果を生成する軽量なトラックアニシングモデルであるEfficientTAMsを提案します。私たちのアイデアは、ビデオオブジェクトセグメンテーションのための画像エンコーダーとして平易で非階層的なVision Transformer(ViT)を再検討し、現在のフレームセグメンテーションのためのフレーム特徴抽出とメモリ計算の複雑さを削減する効率的なメモリモジュールを導入することに基づいています。私たちは、バニラの軽量ViTsと効率的なメモリモジュールを使用してEfficientTAMsを構築し、ビデオオブジェクトセグメンテーションとトラックアニシングタスクのためにSA-1BおよびSA-Vデータセットでモデルをトレーニングします。セミ監督VOSやプロンプト可能なビデオセグメンテーションを含む複数のビデオセグメンテーションベンチマークで評価し、提案されたEfficientTAMがバニラViTでSAM 2モデル(HieraB+SAM 2)と比較可能な性能を発揮し、A100で約2倍の高速化とパラメータ削減率の約2.4倍を達成することを確認しました。セグメントアニシング画像タスクでは、EfficientTAMsがオリジナルのSAMよりも有利な性能を発揮し、A100で約20倍の高速化とパラメータ削減率の約20倍を達成しています。iPhone 15 Pro Maxなどのモバイルデバイスでは、EfficientTAMsが、合理的な品質でビデオオブジェクトセグメンテーションを実行するために約10 FPSで動作することができ、小さなモデルのオンデバイスビデオオブジェクトセグメンテーションアプリケーションの可能性を示しています。
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video object segmentation and tracking anything. Key components of SAM 2 that drive the impressive video object segmentation performance include a large multistage image encoder for frame feature extraction and a memory mechanism that stores memory contexts from past frames to help current frame segmentation. The high computation complexity of multistage image encoder and memory module has limited its applications in real-world tasks, e.g., video object segmentation on mobile devices. To address this limitation, we propose EfficientTAMs, lightweight track anything models that produce high-quality results with low latency and model size. Our idea is based on revisiting the plain, nonhierarchical Vision Transformer (ViT) as an image encoder for video object segmentation, and introducing an efficient memory module, which reduces the complexity for both frame feature extraction and memory computation for current frame segmentation. We take vanilla lightweight ViTs and efficient memory module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets for video object segmentation and track anything tasks. We evaluate on multiple video segmentation benchmarks including semi-supervised VOS and promptable video segmentation, and find that our proposed EfficientTAM with vanilla ViT perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and ~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs also perform favorably over original SAM with ~20x speedup on A100 and ~20x parameter reduction. On mobile devices such as iPhone 15 Pro Max, our EfficientTAMs can run at ~10 FPS for performing video object segmentation with reasonable quality, highlighting the capability of small models for on-device video object segmentation applications.

Summary

AI-Generated Summary

PDF173December 3, 2024