Effizientes Verfolgen von Allem.
Efficient Track Anything
November 28, 2024
Autoren: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI
Zusammenfassung
Das Segment Anything Model 2 (SAM 2) hat sich als leistungsstarkes Werkzeug für die Segmentierung von Videoobjekten und das Tracking von beliebigen Elementen erwiesen. Zu den Schlüsselkomponenten von SAM 2, die die beeindruckende Leistung bei der Segmentierung von Videoobjekten ermöglichen, gehören ein großer mehrstufiger Bildcodierer zur Extraktion von Merkmalen aus Einzelbildern und ein Speichermechanismus, der Gedächtniskontexte aus vergangenen Frames speichert, um die Segmentierung des aktuellen Frames zu unterstützen. Die hohe Rechenkomplexität des mehrstufigen Bildcodierers und des Speichermoduls hat seine Anwendungen in realen Aufgaben, wie z.B. der Segmentierung von Videoobjekten auf mobilen Geräten, eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir EfficientTAMs vor, leichte Modelle zur Verfolgung beliebiger Elemente, die qualitativ hochwertige Ergebnisse mit geringer Latenz und Modellgröße liefern. Unsere Idee basiert darauf, den einfachen, nicht-hierarchischen Vision Transformer (ViT) als Bildcodierer für die Segmentierung von Videoobjekten neu zu bewerten und ein effizientes Speichermodul einzuführen, das die Komplexität sowohl für die Extraktion von Merkmalen aus Einzelbildern als auch für die Speicherberechnung für die Segmentierung des aktuellen Frames reduziert. Wir verwenden einfache, leichte ViTs und ein effizientes Speichermodul, um EfficientTAMs zu erstellen, und trainieren die Modelle auf den Datensätzen SA-1B und SA-V für die Segmentierung von Videoobjekten und die Verfolgung beliebiger Elemente. Wir evaluieren anhand mehrerer Video-Segmentierungs-Benchmarks, einschließlich halbüberwachter VOS und anweisbarer Video-Segmentierung, und stellen fest, dass unser vorgeschlagenes EfficientTAM mit einfachem ViT vergleichbare Leistungen wie das SAM 2-Modell (HieraB+SAM 2) mit etwa doppeltem Geschwindigkeitsvorteil auf A100 und etwa 2,4-facher Parameterreduktion erbringt. Bei Segment-Anything-Bildaufgaben schneiden unsere EfficientTAMs auch vorteilhaft gegenüber dem ursprünglichen SAM ab, mit etwa 20-fachem Geschwindigkeitsvorteil auf A100 und etwa 20-facher Parameterreduktion. Auf mobilen Geräten wie dem iPhone 15 Pro Max können unsere EfficientTAMs mit angemessener Qualität mit etwa 10 FPS für die Durchführung der Segmentierung von Videoobjekten ausgeführt werden, was die Fähigkeit kleiner Modelle für Anwendungen zur Segmentierung von Videoobjekten auf Geräten hervorhebt.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video
object segmentation and tracking anything. Key components of SAM 2 that drive
the impressive video object segmentation performance include a large multistage
image encoder for frame feature extraction and a memory mechanism that stores
memory contexts from past frames to help current frame segmentation. The high
computation complexity of multistage image encoder and memory module has
limited its applications in real-world tasks, e.g., video object segmentation
on mobile devices. To address this limitation, we propose EfficientTAMs,
lightweight track anything models that produce high-quality results with low
latency and model size. Our idea is based on revisiting the plain,
nonhierarchical Vision Transformer (ViT) as an image encoder for video object
segmentation, and introducing an efficient memory module, which reduces the
complexity for both frame feature extraction and memory computation for current
frame segmentation. We take vanilla lightweight ViTs and efficient memory
module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets
for video object segmentation and track anything tasks. We evaluate on multiple
video segmentation benchmarks including semi-supervised VOS and promptable
video segmentation, and find that our proposed EfficientTAM with vanilla ViT
perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and
~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs
also perform favorably over original SAM with ~20x speedup on A100 and ~20x
parameter reduction. On mobile devices such as iPhone 15 Pro Max, our
EfficientTAMs can run at ~10 FPS for performing video object segmentation with
reasonable quality, highlighting the capability of small models for on-device
video object segmentation applications.Summary
AI-Generated Summary