ChatPaper.aiChatPaper

Suivi de tout objet en haute qualité

Tracking Anything in High Quality

July 26, 2023
Auteurs: Jiawen Zhu, Zhenyu Chen, Zeqi Hao, Shijie Chang, Lu Zhang, Dong Wang, Huchuan Lu, Bin Luo, Jun-Yan He, Jin-Peng Lan, Hanyuan Chen, Chenyang Li
cs.AI

Résumé

Le suivi visuel d'objets est une tâche vidéo fondamentale en vision par ordinateur. Récemment, la puissance notablement accrue des algorithmes de perception permet l'unification du suivi mono/multi-objets et basé sur des boîtes/masques. Parmi eux, le Segment Anything Model (SAM) attire beaucoup d'attention. Dans ce rapport, nous proposons HQTrack, un cadre pour le suivi de haute qualité de n'importe quel objet dans les vidéos. HQTrack se compose principalement d'un segmenteur multi-objets vidéo (VMOS) et d'un raffineur de masques (MR). Étant donné l'objet à suivre dans l'image initiale d'une vidéo, VMOS propage les masques de l'objet à l'image courante. Les résultats de masque à ce stade ne sont pas suffisamment précis car VMOS est entraîné sur plusieurs ensembles de données de segmentation d'objets vidéo (VOS) fermés, ce qui limite sa capacité à généraliser à des scènes complexes et marginales. Pour améliorer davantage la qualité des masques de suivi, un modèle MR pré-entraîné est utilisé pour raffiner les résultats de suivi. Comme témoignage convaincant de l'efficacité de notre paradigme, sans utiliser de techniques telles que l'augmentation de données au moment du test et l'assemblage de modèles, HQTrack se classe à la 2e place du défi Visual Object Tracking and Segmentation (VOTS2023). Le code et les modèles sont disponibles à l'adresse https://github.com/jiawen-zhu/HQTrack.
English
Visual object tracking is a fundamental video task in computer vision. Recently, the notably increasing power of perception algorithms allows the unification of single/multiobject and box/mask-based tracking. Among them, the Segment Anything Model (SAM) attracts much attention. In this report, we propose HQTrack, a framework for High Quality Tracking anything in videos. HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask refiner (MR). Given the object to be tracked in the initial frame of a video, VMOS propagates the object masks to the current frame. The mask results at this stage are not accurate enough since VMOS is trained on several closeset video object segmentation (VOS) datasets, which has limited ability to generalize to complex and corner scenes. To further improve the quality of tracking masks, a pretrained MR model is employed to refine the tracking results. As a compelling testament to the effectiveness of our paradigm, without employing any tricks such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code and models are available at https://github.com/jiawen-zhu/HQTrack.
PDF142December 15, 2024