ChatPaper.aiChatPaper

Video-Instanz-Matting

Video Instance Matting

November 7, 2023
Autoren: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI

Zusammenfassung

Konventionelles Video-Matting erzeugt ein Alpha-Matte für alle Instanzen, die in einem Videobild erscheinen, sodass einzelne Instanzen nicht unterschieden werden. Während die Video-Instanzsegmentierung zeitlich konsistente Instanzmasken liefert, sind die Ergebnisse für Matting-Anwendungen unbefriedigend, insbesondere aufgrund der angewendeten Binarisierung. Um diesen Mangel zu beheben, schlagen wir Video Instance Matting (VIM) vor, das heißt, die Schätzung von Alpha-Matten für jede Instanz in jedem Bild einer Videosequenz. Um dieses anspruchsvolle Problem zu lösen, präsentieren wir MSG-VIM, ein Mask Sequence Guided Video Instance Matting-Neuronales Netzwerk, als neuartiges Basismodell für VIM. MSG-VIM nutzt eine Mischung aus Masken-Augmentierungen, um Vorhersagen robust gegenüber ungenauen und inkonsistenten Maskenführungen zu machen. Es integriert temporale Masken- und temporale Merkmalsführungen, um die zeitliche Konsistenz der Alpha-Matten-Vorhersagen zu verbessern. Darüber hinaus erstellen wir einen neuen Benchmark für VIM, genannt VIM50, der 50 Videoclips mit mehreren menschlichen Instanzen als Vordergrundobjekte umfasst. Um die Leistungen bei der VIM-Aufgabe zu bewerten, führen wir eine geeignete Metrik namens Video Instance-aware Matting Quality (VIMQ) ein. Unser vorgeschlagenes Modell MSG-VIM setzt einen starken Benchmark auf dem VIM50-Benchmark und übertrifft bestehende Methoden deutlich. Das Projekt ist unter https://github.com/SHI-Labs/VIM quelloffen verfügbar.
English
Conventional video matting outputs one alpha matte for all instances appearing in a video frame so that individual instances are not distinguished. While video instance segmentation provides time-consistent instance masks, results are unsatisfactory for matting applications, especially due to applied binarization. To remedy this deficiency, we propose Video Instance Matting~(VIM), that is, estimating alpha mattes of each instance at each frame of a video sequence. To tackle this challenging problem, we present MSG-VIM, a Mask Sequence Guided Video Instance Matting neural network, as a novel baseline model for VIM. MSG-VIM leverages a mixture of mask augmentations to make predictions robust to inaccurate and inconsistent mask guidance. It incorporates temporal mask and temporal feature guidance to improve the temporal consistency of alpha matte predictions. Furthermore, we build a new benchmark for VIM, called VIM50, which comprises 50 video clips with multiple human instances as foreground objects. To evaluate performances on the VIM task, we introduce a suitable metric called Video Instance-aware Matting Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50 benchmark and outperforms existing methods by a large margin. The project is open-sourced at https://github.com/SHI-Labs/VIM.
PDF110December 15, 2024