SAM2Long: Melhorando o SAM 2 para Segmentação Longa de Vídeos com uma Árvore de Memória sem Treinamento.

Resumo

O Modelo Segment Anything 2 (SAM 2) surgiu como um modelo fundamental poderoso para a segmentação de objetos em imagens e vídeos, abrindo caminho para várias aplicações de vídeo subsequentes. O design crucial do SAM 2 para segmentação de vídeo é o seu módulo de memória, que promove memórias conscientes de objetos de quadros anteriores para a previsão do quadro atual. No entanto, seu design de memória de seleção gananciosa sofre do problema de "acúmulo de erros", onde uma máscara com erro ou perdida irá se propagar e influenciar a segmentação dos quadros subsequentes, o que limita o desempenho do SAM 2 em vídeos complexos de longo prazo. Para isso, apresentamos o SAM2Long, uma estratégia aprimorada de segmentação de objetos em vídeo sem treinamento, que considera a incerteza de segmentação dentro de cada quadro e escolhe os resultados ótimos em nível de vídeo a partir de múltiplos caminhos de segmentação de maneira de busca em árvore restrita. Na prática, mantemos um número fixo de caminhos de segmentação ao longo do vídeo. Para cada quadro, várias máscaras são propostas com base nos caminhos existentes, criando várias ramificações candidatas. Em seguida, selecionamos o mesmo número fixo de ramificações com pontuações cumulativas mais altas como os novos caminhos para o próximo quadro. Após processar o quadro final, o caminho com a pontuação cumulativa mais alta é escolhido como o resultado final de segmentação. Beneficiando-se de seu design de busca heurística, o SAM2Long é robusto em relação a oclusões e reaparições de objetos, e pode segmentar e rastrear objetos de forma eficaz em vídeos complexos de longo prazo. Notavelmente, o SAM2Long alcança uma melhoria média de 3,0 pontos em todas as 24 comparações diretas, com ganhos de até 5,3 pontos em J&F em benchmarks de segmentação de objetos de vídeo de longo prazo, como SA-V e LVOS. O código está disponível em https://github.com/Mark12Ding/SAM2Long.

English

The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the "error accumulation" problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.

SAM2Long: Melhorando o SAM 2 para Segmentação Longa de Vídeos com uma Árvore de Memória sem Treinamento.

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

Resumo

Support