ChatPaper.aiChatPaper

Hochwertige Verfolgung von beliebigen Objekten

Tracking Anything in High Quality

July 26, 2023
Autoren: Jiawen Zhu, Zhenyu Chen, Zeqi Hao, Shijie Chang, Lu Zhang, Dong Wang, Huchuan Lu, Bin Luo, Jun-Yan He, Jin-Peng Lan, Hanyuan Chen, Chenyang Li
cs.AI

Zusammenfassung

Die visuelle Objektverfolgung ist eine grundlegende Videoaufgabe in der Computer Vision. In jüngster Zeit ermöglicht die deutlich gesteigerte Leistungsfähigkeit von Wahrnehmungsalgorithmen die Vereinheitlichung von Einzel-/Mehrfachobjekt- und Box-/Masken-basierter Verfolgung. Unter diesen hat das Segment Anything Model (SAM) viel Aufmerksamkeit erregt. In diesem Bericht stellen wir HQTrack vor, ein Framework für hochqualitative Verfolgung von beliebigen Objekten in Videos. HQTrack besteht hauptsächlich aus einem Video-Multi-Objekt-Segmentierer (VMOS) und einem Masken-Verfeinerer (MR). Gegeben das zu verfolgende Objekt im Anfangsrahmen eines Videos, propagiert VMOS die Objektmasken zum aktuellen Rahmen. Die Maskenergebnisse in diesem Stadium sind nicht präzise genug, da VMOS auf mehreren geschlossenen Video-Objekt-Segmentierungsdatensätzen (VOS) trainiert wurde, was die Fähigkeit zur Generalisierung auf komplexe und spezielle Szenen einschränkt. Um die Qualität der Verfolgungsmasken weiter zu verbessern, wird ein vortrainiertes MR-Modell eingesetzt, um die Verfolgungsergebnisse zu verfeinern. Als überzeugender Beweis für die Wirksamkeit unseres Paradigmas belegt HQTrack, ohne den Einsatz von Tricks wie Testzeit-Datenaugmentierung und Modell-Ensembles, den 2. Platz in der Visual Object Tracking and Segmentation (VOTS2023) Challenge. Code und Modelle sind verfügbar unter https://github.com/jiawen-zhu/HQTrack.
English
Visual object tracking is a fundamental video task in computer vision. Recently, the notably increasing power of perception algorithms allows the unification of single/multiobject and box/mask-based tracking. Among them, the Segment Anything Model (SAM) attracts much attention. In this report, we propose HQTrack, a framework for High Quality Tracking anything in videos. HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask refiner (MR). Given the object to be tracked in the initial frame of a video, VMOS propagates the object masks to the current frame. The mask results at this stage are not accurate enough since VMOS is trained on several closeset video object segmentation (VOS) datasets, which has limited ability to generalize to complex and corner scenes. To further improve the quality of tracking masks, a pretrained MR model is employed to refine the tracking results. As a compelling testament to the effectiveness of our paradigm, without employing any tricks such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code and models are available at https://github.com/jiawen-zhu/HQTrack.
PDF142December 15, 2024