Rastreamento de Qualidade Superior para Qualquer Objeto
Tracking Anything in High Quality
July 26, 2023
Autores: Jiawen Zhu, Zhenyu Chen, Zeqi Hao, Shijie Chang, Lu Zhang, Dong Wang, Huchuan Lu, Bin Luo, Jun-Yan He, Jin-Peng Lan, Hanyuan Chen, Chenyang Li
cs.AI
Resumo
O rastreamento visual de objetos é uma tarefa fundamental em vídeo na visão computacional. Recentemente, o poder notavelmente crescente dos algoritmos de percepção permite a unificação do rastreamento de objetos únicos/múltiplos e baseado em caixas/máscaras. Entre eles, o Segment Anything Model (SAM) atrai muita atenção. Neste relatório, propomos o HQTrack, uma estrutura para Rastreamento de Alta Qualidade de qualquer coisa em vídeos. O HQTrack consiste principalmente em um segmentador de múltiplos objetos em vídeo (VMOS) e um refinador de máscaras (MR). Dado o objeto a ser rastreado no quadro inicial de um vídeo, o VMOS propaga as máscaras do objeto para o quadro atual. Os resultados das máscaras nesta etapa não são precisos o suficiente, pois o VMOS é treinado em vários conjuntos de dados de segmentação de objetos em vídeo (VOS) de conjunto fechado, o que limita sua capacidade de generalização para cenas complexas e de canto. Para melhorar ainda mais a qualidade das máscaras de rastreamento, um modelo MR pré-treinado é empregado para refinar os resultados do rastreamento. Como um testemunho convincente da eficácia de nosso paradigma, sem empregar truques como aumentação de dados em tempo de teste e ensemble de modelos, o HQTrack ocupa o 2º lugar no desafio de Rastreamento e Segmentação de Objetos Visuais (VOTS2023). Código e modelos estão disponíveis em https://github.com/jiawen-zhu/HQTrack.
English
Visual object tracking is a fundamental video task in computer vision.
Recently, the notably increasing power of perception algorithms allows the
unification of single/multiobject and box/mask-based tracking. Among them, the
Segment Anything Model (SAM) attracts much attention. In this report, we
propose HQTrack, a framework for High Quality Tracking anything in videos.
HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask
refiner (MR). Given the object to be tracked in the initial frame of a video,
VMOS propagates the object masks to the current frame. The mask results at this
stage are not accurate enough since VMOS is trained on several closeset video
object segmentation (VOS) datasets, which has limited ability to generalize to
complex and corner scenes. To further improve the quality of tracking masks, a
pretrained MR model is employed to refine the tracking results. As a compelling
testament to the effectiveness of our paradigm, without employing any tricks
such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd
place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code
and models are available at https://github.com/jiawen-zhu/HQTrack.