ChatPaper.aiChatPaper

SAM2Long: Mejorando SAM 2 para la Segmentación de Videos Largos con un Árbol de Memoria sin Entrenamiento

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

October 21, 2024
Autores: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
cs.AI

Resumen

El Modelo Segment Anything 2 (SAM 2) ha surgido como un modelo base potente para la segmentación de objetos en imágenes y videos, allanando el camino para diversas aplicaciones de video posteriores. El diseño crucial de SAM 2 para la segmentación de video es su módulo de memoria, que genera memorias conscientes de objetos de fotogramas anteriores para la predicción del fotograma actual. Sin embargo, su diseño de memoria de selección ávida sufre del problema de "acumulación de errores", donde una máscara con errores o perdida se propagará e influirá en la segmentación de los fotogramas subsecuentes, lo que limita el rendimiento de SAM 2 hacia videos complejos a largo plazo. Con este fin, presentamos SAM2Long, una estrategia mejorada de segmentación de objetos en video sin entrenamiento, que considera la incertidumbre de segmentación dentro de cada fotograma y elige los resultados óptimos a nivel de video de múltiples trayectorias de segmentación de manera restringida mediante búsqueda en árbol. En la práctica, mantenemos un número fijo de trayectorias de segmentación a lo largo del video. Para cada fotograma, se proponen múltiples máscaras basadas en las trayectorias existentes, creando diversas ramas candidatas. Luego seleccionamos el mismo número fijo de ramas con puntajes acumulativos más altos como las nuevas trayectorias para el siguiente fotograma. Después de procesar el fotograma final, se elige la trayectoria con el puntaje acumulativo más alto como el resultado final de segmentación. Beneficiándose de su diseño de búsqueda heurística, SAM2Long es robusto ante oclusiones y reapariciones de objetos, y puede segmentar y rastrear objetos de manera efectiva en videos complejos a largo plazo. Es importante destacar que SAM2Long logra una mejora promedio de 3.0 puntos en todas las 24 comparaciones directas, con ganancias de hasta 5.3 puntos en J&F en bancos de pruebas de segmentación de objetos en video a largo plazo como SA-V y LVOS. El código está disponible en https://github.com/Mark12Ding/SAM2Long.
English
The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the "error accumulation" problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.

Summary

AI-Generated Summary

PDF692November 16, 2024