Эффективное отслеживание всего.
Efficient Track Anything
November 28, 2024
Авторы: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI
Аннотация
Модель Segment Anything Model 2 (SAM 2) стала мощным инструментом для сегментации объектов на видео и отслеживания всего. Ключевые компоненты SAM 2, обеспечивающие впечатляющую производительность сегментации объектов на видео, включают в себя большой многоуровневый кодировщик изображений для извлечения признаков кадра и механизм памяти, который сохраняет контексты памяти из прошлых кадров для помощи в сегментации текущего кадра. Высокая вычислительная сложность многоуровневого кодировщика изображений и модуля памяти ограничила его применение в реальных задачах, например, в сегментации объектов на видео на мобильных устройствах. Для преодоления этого ограничения мы предлагаем EfficientTAMs, легкие модели отслеживания объектов, которые производят качественные результаты с низкой задержкой и размером модели. Наша идея основана на повторном рассмотрении обычного, неиерархического Vision Transformer (ViT) в качестве кодировщика изображений для сегментации объектов на видео и введении эффективного модуля памяти, который уменьшает сложность как извлечения признаков кадра, так и вычисления памяти для сегментации текущего кадра. Мы используем обычные легкие ViT и эффективный модуль памяти для создания EfficientTAMs и обучаем модели на наборах данных SA-1B и SA-V для сегментации объектов на видео и задач отслеживания объектов. Мы оцениваем на нескольких бенчмарках сегментации видео, включая полу-надзорный VOS и сегментацию видео по запросу, и обнаруживаем, что наша предложенная EfficientTAM с обычным ViT работает сопоставимо с моделью SAM 2 (HieraB+SAM 2) с ускорением в ~2 раза на A100 и сокращением параметров в ~2.4 раза. В задачах сегментации изображений на все, наши EfficientTAMs также проявляют себя лучше, чем оригинальная SAM с ускорением в ~20 раз на A100 и сокращением параметров в ~20 раз. На мобильных устройствах, таких как iPhone 15 Pro Max, наши EfficientTAMs могут работать с частотой ~10 кадров в секунду для выполнения сегментации объектов на видео с приемлемым качеством, подчеркивая возможности небольших моделей для приложений сегментации объектов на видео на устройствах.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video
object segmentation and tracking anything. Key components of SAM 2 that drive
the impressive video object segmentation performance include a large multistage
image encoder for frame feature extraction and a memory mechanism that stores
memory contexts from past frames to help current frame segmentation. The high
computation complexity of multistage image encoder and memory module has
limited its applications in real-world tasks, e.g., video object segmentation
on mobile devices. To address this limitation, we propose EfficientTAMs,
lightweight track anything models that produce high-quality results with low
latency and model size. Our idea is based on revisiting the plain,
nonhierarchical Vision Transformer (ViT) as an image encoder for video object
segmentation, and introducing an efficient memory module, which reduces the
complexity for both frame feature extraction and memory computation for current
frame segmentation. We take vanilla lightweight ViTs and efficient memory
module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets
for video object segmentation and track anything tasks. We evaluate on multiple
video segmentation benchmarks including semi-supervised VOS and promptable
video segmentation, and find that our proposed EfficientTAM with vanilla ViT
perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and
~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs
also perform favorably over original SAM with ~20x speedup on A100 and ~20x
parameter reduction. On mobile devices such as iPhone 15 Pro Max, our
EfficientTAMs can run at ~10 FPS for performing video object segmentation with
reasonable quality, highlighting the capability of small models for on-device
video object segmentation applications.Summary
AI-Generated Summary