ChatPaper.aiChatPaper

Efficiënt Volg Alles

Efficient Track Anything

November 28, 2024
Auteurs: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI

Samenvatting

Het Segment Anything Model 2 (SAM 2) is naar voren gekomen als een krachtig instrument voor videobeeldsegmentatie en het volgen van alles. Belangrijke onderdelen van SAM 2 die de indrukwekkende prestaties van videobeeldsegmentatie aandrijven, omvatten een grote meertraps beeldencoder voor het extraheren van kenmerken van frames en een geheugenmechanisme dat geheugencontexten van eerdere frames opslaat om de segmentatie van het huidige frame te helpen. De hoge rekencomplexiteit van de meertraps beeldencoder en het geheugenmodule heeft de toepassingen ervan in real-world taken beperkt, zoals videobeeldsegmentatie op mobiele apparaten. Om deze beperking aan te pakken, stellen we EfficientTAMs voor, lichtgewicht modellen voor het volgen van alles die hoogwaardige resultaten produceren met lage latentie en modelgrootte. Ons idee is gebaseerd op het heroverwegen van de eenvoudige, niet-hiërarchische Vision Transformer (ViT) als een beeldencoder voor videobeeldsegmentatie, en het introduceren van een efficiënte geheugenmodule, die de complexiteit vermindert voor zowel het extraheren van kenmerken van frames als het berekenen van geheugen voor de segmentatie van het huidige frame. We gebruiken standaard lichtgewicht ViTs en een efficiënte geheugenmodule om EfficientTAMs te bouwen, en trainen de modellen op SA-1B en SA-V datasets voor videobeeldsegmentatie en taken voor het volgen van alles. We evalueren op meerdere videobeeldsegmentatie benchmarks, waaronder semi-supervised VOS en promptable videobeeldsegmentatie, en vinden dat onze voorgestelde EfficientTAM met standaard ViT vergelijkbare prestaties levert als het SAM 2-model (HieraB+SAM 2) met ~2x versnelling op A100 en ~2.4x parametervermindering. Bij taken voor het segmenteren van beeldmateriaal presteren onze EfficientTAMs ook gunstig ten opzichte van het originele SAM met ~20x versnelling op A100 en ~20x parametervermindering. Op mobiele apparaten zoals de iPhone 15 Pro Max kunnen onze EfficientTAMs draaien op ~10 FPS voor het uitvoeren van videobeeldsegmentatie met redelijke kwaliteit, waarbij de mogelijkheden van kleine modellen voor toepassingen van videobeeldsegmentatie op apparaten worden benadrukt.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video object segmentation and tracking anything. Key components of SAM 2 that drive the impressive video object segmentation performance include a large multistage image encoder for frame feature extraction and a memory mechanism that stores memory contexts from past frames to help current frame segmentation. The high computation complexity of multistage image encoder and memory module has limited its applications in real-world tasks, e.g., video object segmentation on mobile devices. To address this limitation, we propose EfficientTAMs, lightweight track anything models that produce high-quality results with low latency and model size. Our idea is based on revisiting the plain, nonhierarchical Vision Transformer (ViT) as an image encoder for video object segmentation, and introducing an efficient memory module, which reduces the complexity for both frame feature extraction and memory computation for current frame segmentation. We take vanilla lightweight ViTs and efficient memory module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets for video object segmentation and track anything tasks. We evaluate on multiple video segmentation benchmarks including semi-supervised VOS and promptable video segmentation, and find that our proposed EfficientTAM with vanilla ViT perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and ~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs also perform favorably over original SAM with ~20x speedup on A100 and ~20x parameter reduction. On mobile devices such as iPhone 15 Pro Max, our EfficientTAMs can run at ~10 FPS for performing video object segmentation with reasonable quality, highlighting the capability of small models for on-device video object segmentation applications.
PDF173December 3, 2024