Suivi Efficace de Tout
Efficient Track Anything
November 28, 2024
Auteurs: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI
Résumé
Le modèle Segment Anything Model 2 (SAM 2) s'est imposé comme un outil puissant pour la segmentation d'objets vidéo et le suivi de tout objet. Les principaux composants de SAM 2 qui contribuent à ses performances impressionnantes en matière de segmentation d'objets vidéo comprennent un grand encodeur d'image à plusieurs étages pour l'extraction des caractéristiques des images et un mécanisme de mémoire qui stocke des contextes de mémoire des images passées pour aider à la segmentation de l'image actuelle. La complexité de calcul élevée de l'encodeur d'image à plusieurs étages et du module de mémoire a limité ses applications dans des tâches réelles, telles que la segmentation d'objets vidéo sur des appareils mobiles. Pour pallier cette limitation, nous proposons EfficientTAMs, des modèles légers de suivi d'objets qui produisent des résultats de haute qualité avec une faible latence et une taille de modèle réduite. Notre idée repose sur la révision du Vision Transformer (ViT) simple et non hiérarchique en tant qu'encodeur d'image pour la segmentation d'objets vidéo, et l'introduction d'un module de mémoire efficace, qui réduit la complexité à la fois pour l'extraction des caractéristiques des images et le calcul de la mémoire pour la segmentation de l'image actuelle. Nous utilisons des ViTs légers de base et un module de mémoire efficace pour construire EfficientTAMs, et entraînons les modèles sur les ensembles de données SA-1B et SA-V pour la segmentation d'objets vidéo et les tâches de suivi d'objets. Nous évaluons sur plusieurs benchmarks de segmentation vidéo, y compris la VOS semi-supervisée et la segmentation vidéo promptable, et constatons que notre EfficientTAM proposé avec ViT de base se comporte de manière comparable au modèle SAM 2 (HieraB+SAM 2) avec un gain de vitesse d'environ 2x sur A100 et une réduction des paramètres d'environ 2,4x. Sur les tâches d'images de segmentation d'objets, nos EfficientTAMs se comportent également favorablement par rapport au SAM original avec un gain de vitesse d'environ 20x sur A100 et une réduction des paramètres d'environ 20x. Sur des appareils mobiles tels que l'iPhone 15 Pro Max, nos EfficientTAMs peuvent fonctionner à environ 10 images par seconde pour effectuer la segmentation d'objets vidéo avec une qualité raisonnable, mettant en avant la capacité des petits modèles pour les applications de segmentation d'objets vidéo sur appareils.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video
object segmentation and tracking anything. Key components of SAM 2 that drive
the impressive video object segmentation performance include a large multistage
image encoder for frame feature extraction and a memory mechanism that stores
memory contexts from past frames to help current frame segmentation. The high
computation complexity of multistage image encoder and memory module has
limited its applications in real-world tasks, e.g., video object segmentation
on mobile devices. To address this limitation, we propose EfficientTAMs,
lightweight track anything models that produce high-quality results with low
latency and model size. Our idea is based on revisiting the plain,
nonhierarchical Vision Transformer (ViT) as an image encoder for video object
segmentation, and introducing an efficient memory module, which reduces the
complexity for both frame feature extraction and memory computation for current
frame segmentation. We take vanilla lightweight ViTs and efficient memory
module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets
for video object segmentation and track anything tasks. We evaluate on multiple
video segmentation benchmarks including semi-supervised VOS and promptable
video segmentation, and find that our proposed EfficientTAM with vanilla ViT
perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and
~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs
also perform favorably over original SAM with ~20x speedup on A100 and ~20x
parameter reduction. On mobile devices such as iPhone 15 Pro Max, our
EfficientTAMs can run at ~10 FPS for performing video object segmentation with
reasonable quality, highlighting the capability of small models for on-device
video object segmentation applications.Summary
AI-Generated Summary