SAM2Long: Miglioramento di SAM 2 per la segmentazione di video lunghi con un Albero di Memoria senza addestramento.

Abstract

Il Modello Segment Anything 2 (SAM 2) è emerso come un potente modello fondamentale per la segmentazione degli oggetti sia nelle immagini che nei video, aprendo la strada a varie applicazioni video successive. Il design cruciale di SAM 2 per la segmentazione video è il suo modulo di memoria, che richiama le memorie consapevoli degli oggetti dai frame precedenti per la previsione del frame attuale. Tuttavia, il design della memoria a selezione avida soffre del problema dell'"accumulo degli errori", dove una maschera errata o mancante si propagherà influenzando la segmentazione dei frame successivi, limitando le prestazioni di SAM 2 verso video complessi a lungo termine. A questo scopo, presentiamo SAM2Long, una strategia migliorata di segmentazione degli oggetti video senza addestramento, che tiene conto dell'incertezza della segmentazione all'interno di ciascun frame e sceglie i risultati ottimali a livello video da percorsi di segmentazione multipli in modo vincolato a ricerca a albero. Nella pratica, manteniamo un numero fisso di percorsi di segmentazione per l'intero video. Per ciascun frame, vengono proposte molteplici maschere basate sui percorsi esistenti, creando varie diramazioni candidate. Selezioniamo quindi lo stesso numero fisso di diramazioni con punteggi cumulativi più alti come nuovi percorsi per il frame successivo. Dopo aver elaborato l'ultimo frame, il percorso con il punteggio cumulativo più alto viene scelto come risultato finale della segmentazione. Grazie al suo design di ricerca euristica, SAM2Long è robusto verso occlusioni e riapparizioni degli oggetti, e può segmentare e tracciare efficacemente gli oggetti per video complessi a lungo termine. In particolare, SAM2Long raggiunge un miglioramento medio di 3,0 punti in tutte le 24 comparazioni dirette, con guadagni fino a 5,3 punti in J&F su benchmark di segmentazione degli oggetti video a lungo termine come SA-V e LVOS. Il codice è disponibile su https://github.com/Mark12Ding/SAM2Long.

English

The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the "error accumulation" problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.

SAM2Long: Miglioramento di SAM 2 per la segmentazione di video lunghi con un Albero di Memoria senza addestramento.

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

Abstract

Summary

Support

Support