Высококачественное отслеживание любых объектов
Tracking Anything in High Quality
July 26, 2023
Авторы: Jiawen Zhu, Zhenyu Chen, Zeqi Hao, Shijie Chang, Lu Zhang, Dong Wang, Huchuan Lu, Bin Luo, Jun-Yan He, Jin-Peng Lan, Hanyuan Chen, Chenyang Li
cs.AI
Аннотация
Визуальное отслеживание объектов является фундаментальной задачей в области компьютерного зрения. В последнее время значительно возросшая мощность алгоритмов восприятия позволяет объединить методы отслеживания одного/нескольких объектов и подходы, основанные на ограничивающих прямоугольниках/масках. Среди них модель Segment Anything Model (SAM) привлекает особое внимание. В данном отчете мы представляем HQTrack — фреймворк для высококачественного отслеживания любых объектов в видео. HQTrack в основном состоит из видеосегментатора множества объектов (VMOS) и уточнителя масок (MR). При задании объекта для отслеживания в начальном кадре видео, VMOS распространяет маски объекта на текущий кадр. Результаты масок на этом этапе недостаточно точны, поскольку VMOS обучается на нескольких закрытых наборах данных для сегментации видеообъектов (VOS), что ограничивает способность модели обобщать сложные и нестандартные сцены. Для дальнейшего повышения качества масок отслеживания используется предобученная модель MR, которая уточняет результаты отслеживания. В качестве убедительного подтверждения эффективности нашей парадигмы, без использования каких-либо уловок, таких как аугментация данных во время тестирования и ансамбли моделей, HQTrack занимает 2-е место в соревновании по отслеживанию и сегментации визуальных объектов (VOTS2023). Код и модели доступны по адресу https://github.com/jiawen-zhu/HQTrack.
English
Visual object tracking is a fundamental video task in computer vision.
Recently, the notably increasing power of perception algorithms allows the
unification of single/multiobject and box/mask-based tracking. Among them, the
Segment Anything Model (SAM) attracts much attention. In this report, we
propose HQTrack, a framework for High Quality Tracking anything in videos.
HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask
refiner (MR). Given the object to be tracked in the initial frame of a video,
VMOS propagates the object masks to the current frame. The mask results at this
stage are not accurate enough since VMOS is trained on several closeset video
object segmentation (VOS) datasets, which has limited ability to generalize to
complex and corner scenes. To further improve the quality of tracking masks, a
pretrained MR model is employed to refine the tracking results. As a compelling
testament to the effectiveness of our paradigm, without employing any tricks
such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd
place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code
and models are available at https://github.com/jiawen-zhu/HQTrack.