Rastreamento de Qualidade Superior para Qualquer Objeto

Resumo

O rastreamento visual de objetos é uma tarefa fundamental em vídeo na visão computacional. Recentemente, o poder notavelmente crescente dos algoritmos de percepção permite a unificação do rastreamento de objetos únicos/múltiplos e baseado em caixas/máscaras. Entre eles, o Segment Anything Model (SAM) atrai muita atenção. Neste relatório, propomos o HQTrack, uma estrutura para Rastreamento de Alta Qualidade de qualquer coisa em vídeos. O HQTrack consiste principalmente em um segmentador de múltiplos objetos em vídeo (VMOS) e um refinador de máscaras (MR). Dado o objeto a ser rastreado no quadro inicial de um vídeo, o VMOS propaga as máscaras do objeto para o quadro atual. Os resultados das máscaras nesta etapa não são precisos o suficiente, pois o VMOS é treinado em vários conjuntos de dados de segmentação de objetos em vídeo (VOS) de conjunto fechado, o que limita sua capacidade de generalização para cenas complexas e de canto. Para melhorar ainda mais a qualidade das máscaras de rastreamento, um modelo MR pré-treinado é empregado para refinar os resultados do rastreamento. Como um testemunho convincente da eficácia de nosso paradigma, sem empregar truques como aumentação de dados em tempo de teste e ensemble de modelos, o HQTrack ocupa o 2º lugar no desafio de Rastreamento e Segmentação de Objetos Visuais (VOTS2023). Código e modelos estão disponíveis em https://github.com/jiawen-zhu/HQTrack.

English

Visual object tracking is a fundamental video task in computer vision. Recently, the notably increasing power of perception algorithms allows the unification of single/multiobject and box/mask-based tracking. Among them, the Segment Anything Model (SAM) attracts much attention. In this report, we propose HQTrack, a framework for High Quality Tracking anything in videos. HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask refiner (MR). Given the object to be tracked in the initial frame of a video, VMOS propagates the object masks to the current frame. The mask results at this stage are not accurate enough since VMOS is trained on several closeset video object segmentation (VOS) datasets, which has limited ability to generalize to complex and corner scenes. To further improve the quality of tracking masks, a pretrained MR model is employed to refine the tracking results. As a compelling testament to the effectiveness of our paradigm, without employing any tricks such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code and models are available at https://github.com/jiawen-zhu/HQTrack.

Rastreamento de Qualidade Superior para Qualquer Objeto

Tracking Anything in High Quality

Resumo

Support