Matteo de Instancias de Video
Video Instance Matting
November 7, 2023
Autores: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI
Resumen
El matteo de video convencional genera un solo alpha matte para todas las instancias presentes en un fotograma de video, por lo que no se distinguen las instancias individuales. Si bien la segmentación de instancias en video proporciona máscaras de instancias consistentes en el tiempo, los resultados son insatisfactorios para aplicaciones de matteo, especialmente debido a la binarización aplicada. Para remediar esta deficiencia, proponemos Video Instance Matting (VIM), es decir, la estimación de alpha mattes para cada instancia en cada fotograma de una secuencia de video. Para abordar este problema desafiante, presentamos MSG-VIM, una red neuronal de Video Instance Matting Guiada por Secuencia de Máscaras, como un nuevo modelo de referencia para VIM. MSG-VIM aprovecha una mezcla de aumentaciones de máscaras para hacer que las predicciones sean robustas frente a guías de máscaras inexactas e inconsistentes. Incorpora guía temporal de máscaras y características temporales para mejorar la consistencia temporal de las predicciones de alpha mattes. Además, construimos un nuevo benchmark para VIM, llamado VIM50, que comprende 50 clips de video con múltiples instancias humanas como objetos en primer plano. Para evaluar el rendimiento en la tarea de VIM, introducimos una métrica adecuada llamada Calidad de Matteo Consciente de Instancias en Video (VIMQ). Nuestro modelo propuesto, MSG-VIM, establece un sólido punto de referencia en el benchmark VIM50 y supera ampliamente a los métodos existentes. El proyecto es de código abierto en https://github.com/SHI-Labs/VIM.
English
Conventional video matting outputs one alpha matte for all instances
appearing in a video frame so that individual instances are not distinguished.
While video instance segmentation provides time-consistent instance masks,
results are unsatisfactory for matting applications, especially due to applied
binarization. To remedy this deficiency, we propose Video Instance
Matting~(VIM), that is, estimating alpha mattes of each instance at each frame
of a video sequence. To tackle this challenging problem, we present MSG-VIM, a
Mask Sequence Guided Video Instance Matting neural network, as a novel baseline
model for VIM. MSG-VIM leverages a mixture of mask augmentations to make
predictions robust to inaccurate and inconsistent mask guidance. It
incorporates temporal mask and temporal feature guidance to improve the
temporal consistency of alpha matte predictions. Furthermore, we build a new
benchmark for VIM, called VIM50, which comprises 50 video clips with multiple
human instances as foreground objects. To evaluate performances on the VIM
task, we introduce a suitable metric called Video Instance-aware Matting
Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50
benchmark and outperforms existing methods by a large margin. The project is
open-sourced at https://github.com/SHI-Labs/VIM.