Seguimiento de Cualquier Objeto en Alta Calidad
Tracking Anything in High Quality
July 26, 2023
Autores: Jiawen Zhu, Zhenyu Chen, Zeqi Hao, Shijie Chang, Lu Zhang, Dong Wang, Huchuan Lu, Bin Luo, Jun-Yan He, Jin-Peng Lan, Hanyuan Chen, Chenyang Li
cs.AI
Resumen
El seguimiento visual de objetos es una tarea fundamental en el ámbito de la visión por computadora. Recientemente, el notable aumento en la capacidad de los algoritmos de percepción ha permitido la unificación del seguimiento de objetos únicos/múltiples y basado en cajas/máscaras. Entre ellos, el Segment Anything Model (SAM) ha captado mucha atención. En este informe, proponemos HQTrack, un marco para el seguimiento de alta calidad de cualquier objeto en videos. HQTrack se compone principalmente de un segmentador de múltiples objetos en video (VMOS) y un refinador de máscaras (MR). Dado el objeto a seguir en el fotograma inicial de un video, VMOS propaga las máscaras del objeto al fotograma actual. Los resultados de las máscaras en esta etapa no son lo suficientemente precisos, ya que VMOS se entrena en varios conjuntos de datos de segmentación de objetos en video (VOS) de dominio cerrado, lo que limita su capacidad para generalizar a escenas complejas y extremas. Para mejorar aún más la calidad de las máscaras de seguimiento, se emplea un modelo MR preentrenado para refinar los resultados de seguimiento. Como un testimonio convincente de la efectividad de nuestro paradigma, sin emplear trucos como aumentaciones de datos en tiempo de prueba o ensambles de modelos, HQTrack ocupa el segundo lugar en el desafío de Seguimiento y Segmentación de Objetos Visuales (VOTS2023). El código y los modelos están disponibles en https://github.com/jiawen-zhu/HQTrack.
English
Visual object tracking is a fundamental video task in computer vision.
Recently, the notably increasing power of perception algorithms allows the
unification of single/multiobject and box/mask-based tracking. Among them, the
Segment Anything Model (SAM) attracts much attention. In this report, we
propose HQTrack, a framework for High Quality Tracking anything in videos.
HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask
refiner (MR). Given the object to be tracked in the initial frame of a video,
VMOS propagates the object masks to the current frame. The mask results at this
stage are not accurate enough since VMOS is trained on several closeset video
object segmentation (VOS) datasets, which has limited ability to generalize to
complex and corner scenes. To further improve the quality of tracking masks, a
pretrained MR model is employed to refine the tracking results. As a compelling
testament to the effectiveness of our paradigm, without employing any tricks
such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd
place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code
and models are available at https://github.com/jiawen-zhu/HQTrack.