SAM2Long: Melhorando o SAM 2 para Segmentação Longa de Vídeos com uma Árvore de Memória sem Treinamento.
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
October 21, 2024
Autores: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
O Modelo Segment Anything 2 (SAM 2) surgiu como um modelo fundamental poderoso para a segmentação de objetos em imagens e vídeos, abrindo caminho para várias aplicações de vídeo subsequentes. O design crucial do SAM 2 para segmentação de vídeo é o seu módulo de memória, que promove memórias conscientes de objetos de quadros anteriores para a previsão do quadro atual. No entanto, seu design de memória de seleção gananciosa sofre do problema de "acúmulo de erros", onde uma máscara com erro ou perdida irá se propagar e influenciar a segmentação dos quadros subsequentes, o que limita o desempenho do SAM 2 em vídeos complexos de longo prazo. Para isso, apresentamos o SAM2Long, uma estratégia aprimorada de segmentação de objetos em vídeo sem treinamento, que considera a incerteza de segmentação dentro de cada quadro e escolhe os resultados ótimos em nível de vídeo a partir de múltiplos caminhos de segmentação de maneira de busca em árvore restrita. Na prática, mantemos um número fixo de caminhos de segmentação ao longo do vídeo. Para cada quadro, várias máscaras são propostas com base nos caminhos existentes, criando várias ramificações candidatas. Em seguida, selecionamos o mesmo número fixo de ramificações com pontuações cumulativas mais altas como os novos caminhos para o próximo quadro. Após processar o quadro final, o caminho com a pontuação cumulativa mais alta é escolhido como o resultado final de segmentação. Beneficiando-se de seu design de busca heurística, o SAM2Long é robusto em relação a oclusões e reaparições de objetos, e pode segmentar e rastrear objetos de forma eficaz em vídeos complexos de longo prazo. Notavelmente, o SAM2Long alcança uma melhoria média de 3,0 pontos em todas as 24 comparações diretas, com ganhos de até 5,3 pontos em J&F em benchmarks de segmentação de objetos de vídeo de longo prazo, como SA-V e LVOS. O código está disponível em https://github.com/Mark12Ding/SAM2Long.
English
The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation
model for object segmentation in both images and videos, paving the way for
various downstream video applications. The crucial design of SAM 2 for video
segmentation is its memory module, which prompts object-aware memories from
previous frames for current frame prediction. However, its greedy-selection
memory design suffers from the "error accumulation" problem, where an errored
or missed mask will cascade and influence the segmentation of the subsequent
frames, which limits the performance of SAM 2 toward complex long-term videos.
To this end, we introduce SAM2Long, an improved training-free video object
segmentation strategy, which considers the segmentation uncertainty within each
frame and chooses the video-level optimal results from multiple segmentation
pathways in a constrained tree search manner. In practice, we maintain a fixed
number of segmentation pathways throughout the video. For each frame, multiple
masks are proposed based on the existing pathways, creating various candidate
branches. We then select the same fixed number of branches with higher
cumulative scores as the new pathways for the next frame. After processing the
final frame, the pathway with the highest cumulative score is chosen as the
final segmentation result. Benefiting from its heuristic search design,
SAM2Long is robust toward occlusions and object reappearances, and can
effectively segment and track objects for complex long-term videos. Notably,
SAM2Long achieves an average improvement of 3.0 points across all 24
head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term
video object segmentation benchmarks such as SA-V and LVOS. The code is
released at https://github.com/Mark12Ding/SAM2Long.Summary
AI-Generated Summary