ChatPaper.aiChatPaper

Rastreamento Eficiente de Qualquer Coisa

Efficient Track Anything

November 28, 2024
Autores: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
cs.AI

Resumo

O Modelo Segment Anything 2 (SAM 2) surgiu como uma ferramenta poderosa para segmentação de objetos em vídeo e rastreamento de qualquer coisa. Os principais componentes do SAM 2 que impulsionam o impressionante desempenho de segmentação de objetos em vídeo incluem um grande codificador de imagem de vários estágios para extração de características dos quadros e um mecanismo de memória que armazena contextos de memória de quadros anteriores para auxiliar na segmentação do quadro atual. A alta complexidade computacional do codificador de imagem de vários estágios e do módulo de memória limitou suas aplicações em tarefas do mundo real, como segmentação de objetos em vídeo em dispositivos móveis. Para lidar com essa limitação, propomos os TAMs Eficientes, modelos leves de rastreamento de qualquer coisa que produzem resultados de alta qualidade com baixa latência e tamanho de modelo reduzido. Nossa ideia é baseada na revisitação do Transformer de Visão simples e não hierárquico (ViT) como um codificador de imagem para segmentação de objetos em vídeo, e na introdução de um módulo de memória eficiente, que reduz a complexidade tanto para extração de características dos quadros quanto para computação de memória para a segmentação do quadro atual. Utilizamos ViTs leves e um módulo de memória eficiente para construir os TAMs Eficientes, e treinamos os modelos nos conjuntos de dados SA-1B e SA-V para segmentação de objetos em vídeo e tarefas de rastreamento de qualquer coisa. Avaliamos em vários benchmarks de segmentação de vídeo, incluindo VOS semi-supervisionado e segmentação de vídeo promptable, e descobrimos que nosso proposto TAM Eficiente com ViT simples tem desempenho comparável ao modelo SAM 2 (HieraB+SAM 2) com ~2x mais rápido na A100 e ~2,4x de redução de parâmetros. Em tarefas de imagem de segmentação de qualquer coisa, nossos TAMs Eficientes também têm desempenho favorável em relação ao SAM original, com ~20x mais rápido na A100 e ~20x de redução de parâmetros. Em dispositivos móveis como o iPhone 15 Pro Max, nossos TAMs Eficientes podem rodar a ~10 FPS para realizar segmentação de objetos em vídeo com qualidade razoável, destacando a capacidade de modelos pequenos para aplicações de segmentação de objetos em vídeo em dispositivos.
English
Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video object segmentation and tracking anything. Key components of SAM 2 that drive the impressive video object segmentation performance include a large multistage image encoder for frame feature extraction and a memory mechanism that stores memory contexts from past frames to help current frame segmentation. The high computation complexity of multistage image encoder and memory module has limited its applications in real-world tasks, e.g., video object segmentation on mobile devices. To address this limitation, we propose EfficientTAMs, lightweight track anything models that produce high-quality results with low latency and model size. Our idea is based on revisiting the plain, nonhierarchical Vision Transformer (ViT) as an image encoder for video object segmentation, and introducing an efficient memory module, which reduces the complexity for both frame feature extraction and memory computation for current frame segmentation. We take vanilla lightweight ViTs and efficient memory module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets for video object segmentation and track anything tasks. We evaluate on multiple video segmentation benchmarks including semi-supervised VOS and promptable video segmentation, and find that our proposed EfficientTAM with vanilla ViT perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and ~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs also perform favorably over original SAM with ~20x speedup on A100 and ~20x parameter reduction. On mobile devices such as iPhone 15 Pro Max, our EfficientTAMs can run at ~10 FPS for performing video object segmentation with reasonable quality, highlighting the capability of small models for on-device video object segmentation applications.

Summary

AI-Generated Summary

PDF173December 3, 2024