Seguimiento de Cualquier Objeto con Segmentación de Video Desacoplada
Tracking Anything with Decoupled Video Segmentation
September 7, 2023
Autores: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
cs.AI
Resumen
Los datos de entrenamiento para la segmentación de video son costosos de anotar. Esto dificulta la extensión de algoritmos de extremo a extremo a nuevas tareas de segmentación de video, especialmente en entornos de vocabulario amplio. Para "rastrear cualquier cosa" sin entrenar con datos de video para cada tarea individual, desarrollamos un enfoque de segmentación de video desacoplado (DEVA), compuesto por una segmentación a nivel de imagen específica para la tarea y una propagación temporal bidireccional independiente de la clase/tarea. Debido a este diseño, solo necesitamos un modelo a nivel de imagen para la tarea objetivo (que es más económico de entrenar) y un modelo universal de propagación temporal que se entrena una vez y generaliza entre tareas. Para combinar efectivamente estos dos módulos, utilizamos propagación bidireccional para la fusión (semi-)en línea de hipótesis de segmentación de diferentes fotogramas, generando así una segmentación coherente. Demostramos que esta formulación desacoplada se compara favorablemente con enfoques de extremo a extremo en varias tareas con escasez de datos, incluyendo la segmentación panóptica de video de vocabulario amplio, la segmentación de video de mundo abierto, la segmentación de video referencial y la segmentación de objetos en video no supervisada. El código está disponible en: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
English
Training data for video segmentation are expensive to annotate. This impedes
extensions of end-to-end algorithms to new video segmentation tasks, especially
in large-vocabulary settings. To 'track anything' without training on video
data for every individual task, we develop a decoupled video segmentation
approach (DEVA), composed of task-specific image-level segmentation and
class/task-agnostic bi-directional temporal propagation. Due to this design, we
only need an image-level model for the target task (which is cheaper to train)
and a universal temporal propagation model which is trained once and
generalizes across tasks. To effectively combine these two modules, we use
bi-directional propagation for (semi-)online fusion of segmentation hypotheses
from different frames to generate a coherent segmentation. We show that this
decoupled formulation compares favorably to end-to-end approaches in several
data-scarce tasks including large-vocabulary video panoptic segmentation,
open-world video segmentation, referring video segmentation, and unsupervised
video object segmentation. Code is available at:
https://hkchengrex.github.io/Tracking-Anything-with-DEVA