SAM2Long: Mejorando SAM 2 para la Segmentación de Videos Largos con un Árbol de Memoria sin Entrenamiento
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
October 21, 2024
Autores: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
El Modelo Segment Anything 2 (SAM 2) ha surgido como un modelo base potente para la segmentación de objetos en imágenes y videos, allanando el camino para diversas aplicaciones de video posteriores. El diseño crucial de SAM 2 para la segmentación de video es su módulo de memoria, que genera memorias conscientes de objetos de fotogramas anteriores para la predicción del fotograma actual. Sin embargo, su diseño de memoria de selección ávida sufre del problema de "acumulación de errores", donde una máscara con errores o perdida se propagará e influirá en la segmentación de los fotogramas subsecuentes, lo que limita el rendimiento de SAM 2 hacia videos complejos a largo plazo. Con este fin, presentamos SAM2Long, una estrategia mejorada de segmentación de objetos en video sin entrenamiento, que considera la incertidumbre de segmentación dentro de cada fotograma y elige los resultados óptimos a nivel de video de múltiples trayectorias de segmentación de manera restringida mediante búsqueda en árbol. En la práctica, mantenemos un número fijo de trayectorias de segmentación a lo largo del video. Para cada fotograma, se proponen múltiples máscaras basadas en las trayectorias existentes, creando diversas ramas candidatas. Luego seleccionamos el mismo número fijo de ramas con puntajes acumulativos más altos como las nuevas trayectorias para el siguiente fotograma. Después de procesar el fotograma final, se elige la trayectoria con el puntaje acumulativo más alto como el resultado final de segmentación. Beneficiándose de su diseño de búsqueda heurística, SAM2Long es robusto ante oclusiones y reapariciones de objetos, y puede segmentar y rastrear objetos de manera efectiva en videos complejos a largo plazo. Es importante destacar que SAM2Long logra una mejora promedio de 3.0 puntos en todas las 24 comparaciones directas, con ganancias de hasta 5.3 puntos en J&F en bancos de pruebas de segmentación de objetos en video a largo plazo como SA-V y LVOS. El código está disponible en https://github.com/Mark12Ding/SAM2Long.
English
The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation
model for object segmentation in both images and videos, paving the way for
various downstream video applications. The crucial design of SAM 2 for video
segmentation is its memory module, which prompts object-aware memories from
previous frames for current frame prediction. However, its greedy-selection
memory design suffers from the "error accumulation" problem, where an errored
or missed mask will cascade and influence the segmentation of the subsequent
frames, which limits the performance of SAM 2 toward complex long-term videos.
To this end, we introduce SAM2Long, an improved training-free video object
segmentation strategy, which considers the segmentation uncertainty within each
frame and chooses the video-level optimal results from multiple segmentation
pathways in a constrained tree search manner. In practice, we maintain a fixed
number of segmentation pathways throughout the video. For each frame, multiple
masks are proposed based on the existing pathways, creating various candidate
branches. We then select the same fixed number of branches with higher
cumulative scores as the new pathways for the next frame. After processing the
final frame, the pathway with the highest cumulative score is chosen as the
final segmentation result. Benefiting from its heuristic search design,
SAM2Long is robust toward occlusions and object reappearances, and can
effectively segment and track objects for complex long-term videos. Notably,
SAM2Long achieves an average improvement of 3.0 points across all 24
head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term
video object segmentation benchmarks such as SA-V and LVOS. The code is
released at https://github.com/Mark12Ding/SAM2Long.Summary
AI-Generated Summary