Seguimiento Eficiente de Todo
Efficient Track Anything
November 28, 2024
Autores: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI
Resumen
El Modelo Segment Anything 2 (SAM 2) ha surgido como una herramienta potente para la segmentación de objetos en video y el seguimiento de cualquier cosa. Los componentes clave de SAM 2 que impulsan el impresionante rendimiento de segmentación de objetos en video incluyen un gran codificador de imágenes de múltiples etapas para la extracción de características de cuadros y un mecanismo de memoria que almacena contextos de memoria de cuadros anteriores para ayudar en la segmentación del cuadro actual. La alta complejidad computacional del codificador de imágenes de múltiples etapas y el módulo de memoria ha limitado sus aplicaciones en tareas del mundo real, como la segmentación de objetos en video en dispositivos móviles. Para abordar esta limitación, proponemos EfficientTAMs, modelos livianos de seguimiento de cualquier cosa que producen resultados de alta calidad con baja latencia y tamaño de modelo reducido. Nuestra idea se basa en volver a examinar el Transformer de Visión plano y no jerárquico (ViT) como un codificador de imágenes para la segmentación de objetos en video, e introducir un módulo de memoria eficiente, que reduce la complejidad tanto para la extracción de características de cuadros como para el cálculo de memoria para la segmentación del cuadro actual. Tomamos ViTs livianos y un módulo de memoria eficiente para construir EfficientTAMs, y entrenamos los modelos en los conjuntos de datos SA-1B y SA-V para la segmentación de objetos en video y tareas de seguimiento de cualquier cosa. Evaluamos en múltiples referencias de segmentación de video, incluida la VOS semisupervisada y la segmentación de video promptable, y encontramos que nuestro EfficientTAM propuesto con ViT plano funciona de manera comparable al modelo SAM 2 (HieraB+SAM 2) con una aceleración de ~2x en A100 y una reducción de parámetros de ~2.4x. En tareas de imagen de segmentación de cualquier cosa, nuestros EfficientTAMs también tienen un rendimiento favorable sobre el SAM original con una aceleración de ~20x en A100 y una reducción de parámetros de ~20x. En dispositivos móviles como el iPhone 15 Pro Max, nuestros EfficientTAMs pueden ejecutarse a ~10 FPS para realizar la segmentación de objetos en video con calidad razonable, resaltando la capacidad de modelos pequeños para aplicaciones de segmentación de objetos en video en dispositivos.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video
object segmentation and tracking anything. Key components of SAM 2 that drive
the impressive video object segmentation performance include a large multistage
image encoder for frame feature extraction and a memory mechanism that stores
memory contexts from past frames to help current frame segmentation. The high
computation complexity of multistage image encoder and memory module has
limited its applications in real-world tasks, e.g., video object segmentation
on mobile devices. To address this limitation, we propose EfficientTAMs,
lightweight track anything models that produce high-quality results with low
latency and model size. Our idea is based on revisiting the plain,
nonhierarchical Vision Transformer (ViT) as an image encoder for video object
segmentation, and introducing an efficient memory module, which reduces the
complexity for both frame feature extraction and memory computation for current
frame segmentation. We take vanilla lightweight ViTs and efficient memory
module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets
for video object segmentation and track anything tasks. We evaluate on multiple
video segmentation benchmarks including semi-supervised VOS and promptable
video segmentation, and find that our proposed EfficientTAM with vanilla ViT
perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and
~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs
also perform favorably over original SAM with ~20x speedup on A100 and ~20x
parameter reduction. On mobile devices such as iPhone 15 Pro Max, our
EfficientTAMs can run at ~10 FPS for performing video object segmentation with
reasonable quality, highlighting the capability of small models for on-device
video object segmentation applications.Summary
AI-Generated Summary