SAM2Long: Miglioramento di SAM 2 per la segmentazione di video lunghi con un Albero di Memoria senza addestramento.
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
October 21, 2024
Autori: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
Il Modello Segment Anything 2 (SAM 2) è emerso come un potente modello fondamentale per la segmentazione degli oggetti sia nelle immagini che nei video, aprendo la strada a varie applicazioni video successive. Il design cruciale di SAM 2 per la segmentazione video è il suo modulo di memoria, che richiama le memorie consapevoli degli oggetti dai frame precedenti per la previsione del frame attuale. Tuttavia, il design della memoria a selezione avida soffre del problema dell'"accumulo degli errori", dove una maschera errata o mancante si propagherà influenzando la segmentazione dei frame successivi, limitando le prestazioni di SAM 2 verso video complessi a lungo termine. A questo scopo, presentiamo SAM2Long, una strategia migliorata di segmentazione degli oggetti video senza addestramento, che tiene conto dell'incertezza della segmentazione all'interno di ciascun frame e sceglie i risultati ottimali a livello video da percorsi di segmentazione multipli in modo vincolato a ricerca a albero. Nella pratica, manteniamo un numero fisso di percorsi di segmentazione per l'intero video. Per ciascun frame, vengono proposte molteplici maschere basate sui percorsi esistenti, creando varie diramazioni candidate. Selezioniamo quindi lo stesso numero fisso di diramazioni con punteggi cumulativi più alti come nuovi percorsi per il frame successivo. Dopo aver elaborato l'ultimo frame, il percorso con il punteggio cumulativo più alto viene scelto come risultato finale della segmentazione. Grazie al suo design di ricerca euristica, SAM2Long è robusto verso occlusioni e riapparizioni degli oggetti, e può segmentare e tracciare efficacemente gli oggetti per video complessi a lungo termine. In particolare, SAM2Long raggiunge un miglioramento medio di 3,0 punti in tutte le 24 comparazioni dirette, con guadagni fino a 5,3 punti in J&F su benchmark di segmentazione degli oggetti video a lungo termine come SA-V e LVOS. Il codice è disponibile su https://github.com/Mark12Ding/SAM2Long.
English
The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation
model for object segmentation in both images and videos, paving the way for
various downstream video applications. The crucial design of SAM 2 for video
segmentation is its memory module, which prompts object-aware memories from
previous frames for current frame prediction. However, its greedy-selection
memory design suffers from the "error accumulation" problem, where an errored
or missed mask will cascade and influence the segmentation of the subsequent
frames, which limits the performance of SAM 2 toward complex long-term videos.
To this end, we introduce SAM2Long, an improved training-free video object
segmentation strategy, which considers the segmentation uncertainty within each
frame and chooses the video-level optimal results from multiple segmentation
pathways in a constrained tree search manner. In practice, we maintain a fixed
number of segmentation pathways throughout the video. For each frame, multiple
masks are proposed based on the existing pathways, creating various candidate
branches. We then select the same fixed number of branches with higher
cumulative scores as the new pathways for the next frame. After processing the
final frame, the pathway with the highest cumulative score is chosen as the
final segmentation result. Benefiting from its heuristic search design,
SAM2Long is robust toward occlusions and object reappearances, and can
effectively segment and track objects for complex long-term videos. Notably,
SAM2Long achieves an average improvement of 3.0 points across all 24
head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term
video object segmentation benchmarks such as SA-V and LVOS. The code is
released at https://github.com/Mark12Ding/SAM2Long.Summary
AI-Generated Summary