Matting delle Istanze Video
Video Instance Matting
November 7, 2023
Autori: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI
Abstract
Il matting video convenzionale produce un unico alpha matte per tutte le istanze presenti in un fotogramma video, senza distinguere le singole istanze. Sebbene la segmentazione di istanze video fornisca maschere di istanza temporalmente coerenti, i risultati sono insoddisfacenti per applicazioni di matting, soprattutto a causa della binarizzazione applicata. Per rimediare a questa carenza, proponiamo il Video Instance Matting (VIM), ovvero la stima degli alpha matte di ciascuna istanza in ogni fotogramma di una sequenza video. Per affrontare questo problema complesso, presentiamo MSG-VIM, una rete neurale Mask Sequence Guided Video Instance Matting, come nuovo modello di riferimento per il VIM. MSG-VIM sfrutta una combinazione di aumentazioni delle maschere per rendere le previsioni robuste rispetto a indicazioni di maschera imprecise e incoerenti. Incorpora indicazioni temporali delle maschere e delle caratteristiche per migliorare la coerenza temporale delle previsioni degli alpha matte. Inoltre, costruiamo un nuovo benchmark per il VIM, chiamato VIM50, che comprende 50 clip video con più istanze umane come oggetti in primo piano. Per valutare le prestazioni nel compito di VIM, introduciamo una metrica adatta chiamata Video Instance-aware Matting Quality (VIMQ). Il nostro modello proposto, MSG-VIM, stabilisce un solido riferimento sul benchmark VIM50 e supera i metodi esistenti con un ampio margine. Il progetto è open-source all'indirizzo https://github.com/SHI-Labs/VIM.
English
Conventional video matting outputs one alpha matte for all instances
appearing in a video frame so that individual instances are not distinguished.
While video instance segmentation provides time-consistent instance masks,
results are unsatisfactory for matting applications, especially due to applied
binarization. To remedy this deficiency, we propose Video Instance
Matting~(VIM), that is, estimating alpha mattes of each instance at each frame
of a video sequence. To tackle this challenging problem, we present MSG-VIM, a
Mask Sequence Guided Video Instance Matting neural network, as a novel baseline
model for VIM. MSG-VIM leverages a mixture of mask augmentations to make
predictions robust to inaccurate and inconsistent mask guidance. It
incorporates temporal mask and temporal feature guidance to improve the
temporal consistency of alpha matte predictions. Furthermore, we build a new
benchmark for VIM, called VIM50, which comprises 50 video clips with multiple
human instances as foreground objects. To evaluate performances on the VIM
task, we introduce a suitable metric called Video Instance-aware Matting
Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50
benchmark and outperforms existing methods by a large margin. The project is
open-sourced at https://github.com/SHI-Labs/VIM.