Tracciamento di Qualsiasi Oggetto in Alta Qualità

Abstract

Il tracciamento visivo di oggetti è un compito video fondamentale nel campo della visione artificiale. Recentemente, il notevole aumento della potenza degli algoritmi di percezione consente l'unificazione del tracciamento di singoli/multipli oggetti e basato su box/maschere. Tra questi, il Segment Anything Model (SAM) attira molta attenzione. In questo rapporto, proponiamo HQTrack, un framework per il tracciamento di alta qualità di qualsiasi elemento nei video. HQTrack è composto principalmente da un segmentatore video multi-oggetto (VMOS) e da un raffinatore di maschere (MR). Dato l'oggetto da tracciare nel frame iniziale di un video, VMOS propaga le maschere dell'oggetto al frame corrente. I risultati delle maschere in questa fase non sono sufficientemente accurati poiché VMOS è addestrato su diversi dataset di segmentazione video di oggetti (VOS) chiusi, che hanno una capacità limitata di generalizzare a scene complesse e di angolo. Per migliorare ulteriormente la qualità delle maschere di tracciamento, viene impiegato un modello MR pre-addestrato per affinare i risultati del tracciamento. Come una testimonianza convincente dell'efficacia del nostro paradigma, senza utilizzare trucchi come aumentazioni dei dati al momento del test e ensemble di modelli, HQTrack si classifica al 2° posto nella sfida di Visual Object Tracking and Segmentation (VOTS2023). Il codice e i modelli sono disponibili all'indirizzo https://github.com/jiawen-zhu/HQTrack.

English

Visual object tracking is a fundamental video task in computer vision. Recently, the notably increasing power of perception algorithms allows the unification of single/multiobject and box/mask-based tracking. Among them, the Segment Anything Model (SAM) attracts much attention. In this report, we propose HQTrack, a framework for High Quality Tracking anything in videos. HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask refiner (MR). Given the object to be tracked in the initial frame of a video, VMOS propagates the object masks to the current frame. The mask results at this stage are not accurate enough since VMOS is trained on several closeset video object segmentation (VOS) datasets, which has limited ability to generalize to complex and corner scenes. To further improve the quality of tracking masks, a pretrained MR model is employed to refine the tracking results. As a compelling testament to the effectiveness of our paradigm, without employing any tricks such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code and models are available at https://github.com/jiawen-zhu/HQTrack.

Tracciamento di Qualsiasi Oggetto in Alta Qualità

Tracking Anything in High Quality

Abstract

Support