Matização de Instâncias em Vídeo
Video Instance Matting
November 7, 2023
Autores: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI
Resumo
A matização convencional de vídeos produz uma única matte alfa para todas as instâncias presentes em um quadro de vídeo, de modo que as instâncias individuais não são distinguidas. Embora a segmentação de instâncias em vídeo forneça máscaras de instâncias temporalmente consistentes, os resultados são insatisfatórios para aplicações de matização, especialmente devido à binarização aplicada. Para remediar essa deficiência, propomos a Matização de Instâncias em Vídeo (VIM), ou seja, a estimativa de mattes alfa de cada instância em cada quadro de uma sequência de vídeo. Para abordar esse problema desafiador, apresentamos o MSG-VIM, uma rede neural de Matização de Instâncias em Vídeo Guiada por Sequência de Máscaras, como um novo modelo de referência para VIM. O MSG-VIM aproveita uma mistura de aumentos de máscara para tornar as previsões robustas a orientações de máscara imprecisas e inconsistentes. Ele incorpora orientação temporal de máscara e de características para melhorar a consistência temporal das previsões de matte alfa. Além disso, construímos um novo benchmark para VIM, chamado VIM50, que compreende 50 clipes de vídeo com múltiplas instâncias humanas como objetos em primeiro plano. Para avaliar o desempenho na tarefa de VIM, introduzimos uma métrica adequada chamada Qualidade de Matização Consciente de Instâncias em Vídeo (VIMQ). Nosso modelo proposto, MSG-VIM, estabelece uma forte referência no benchmark VIM50 e supera os métodos existentes por uma grande margem. O projeto é de código aberto em https://github.com/SHI-Labs/VIM.
English
Conventional video matting outputs one alpha matte for all instances
appearing in a video frame so that individual instances are not distinguished.
While video instance segmentation provides time-consistent instance masks,
results are unsatisfactory for matting applications, especially due to applied
binarization. To remedy this deficiency, we propose Video Instance
Matting~(VIM), that is, estimating alpha mattes of each instance at each frame
of a video sequence. To tackle this challenging problem, we present MSG-VIM, a
Mask Sequence Guided Video Instance Matting neural network, as a novel baseline
model for VIM. MSG-VIM leverages a mixture of mask augmentations to make
predictions robust to inaccurate and inconsistent mask guidance. It
incorporates temporal mask and temporal feature guidance to improve the
temporal consistency of alpha matte predictions. Furthermore, we build a new
benchmark for VIM, called VIM50, which comprises 50 video clips with multiple
human instances as foreground objects. To evaluate performances on the VIM
task, we introduce a suitable metric called Video Instance-aware Matting
Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50
benchmark and outperforms existing methods by a large margin. The project is
open-sourced at https://github.com/SHI-Labs/VIM.