Video Instance Matting
Video Instance Matting
November 7, 2023
Auteurs: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI
Samenvatting
Conventionele video-matting produceert één alpha-matte voor alle instanties
die in een videoframe voorkomen, waardoor individuele instanties niet worden
onderscheiden. Hoewel video-instantie-segmentatie tijdconsistente
instantiemaskers biedt, zijn de resultaten onbevredigend voor matting-toepassingen,
met name vanwege de toegepaste binarisering. Om dit tekort te verhelpen, stellen
we Video Instance Matting~(VIM) voor, dat wil zeggen het schatten van
alpha-mattes van elke instantie in elk frame van een videosequentie. Om dit
uitdagende probleem aan te pakken, presenteren we MSG-VIM, een Mask Sequence
Guided Video Instance Matting neuraal netwerk, als een nieuw basislijnmodel
voor VIM. MSG-VIM maakt gebruik van een mix van masker-augmentaties om
voorspellingen robuust te maken tegen onnauwkeurige en inconsistente
maskerbegeleiding. Het integreert temporele masker- en temporele
kenmerkbegeleiding om de temporele consistentie van alpha-matte-voorspellingen
te verbeteren. Bovendien bouwen we een nieuwe benchmark voor VIM, genaamd VIM50,
die bestaat uit 50 videoclips met meerdere menselijke instanties als
voorgrondobjecten. Om prestaties op de VIM-taak te evalueren, introduceren we
een geschikte metriek genaamd Video Instance-aware Matting Quality~(VIMQ). Ons
voorgestelde model MSG-VIM stelt een sterke basislijn op de VIM50-benchmark en
overtreft bestaande methoden met een grote marge. Het project is open-source
beschikbaar op https://github.com/SHI-Labs/VIM.
English
Conventional video matting outputs one alpha matte for all instances
appearing in a video frame so that individual instances are not distinguished.
While video instance segmentation provides time-consistent instance masks,
results are unsatisfactory for matting applications, especially due to applied
binarization. To remedy this deficiency, we propose Video Instance
Matting~(VIM), that is, estimating alpha mattes of each instance at each frame
of a video sequence. To tackle this challenging problem, we present MSG-VIM, a
Mask Sequence Guided Video Instance Matting neural network, as a novel baseline
model for VIM. MSG-VIM leverages a mixture of mask augmentations to make
predictions robust to inaccurate and inconsistent mask guidance. It
incorporates temporal mask and temporal feature guidance to improve the
temporal consistency of alpha matte predictions. Furthermore, we build a new
benchmark for VIM, called VIM50, which comprises 50 video clips with multiple
human instances as foreground objects. To evaluate performances on the VIM
task, we introduce a suitable metric called Video Instance-aware Matting
Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50
benchmark and outperforms existing methods by a large margin. The project is
open-sourced at https://github.com/SHI-Labs/VIM.