ChatPaper.aiChatPaper

Matting d'Instances Vidéo

Video Instance Matting

November 7, 2023
Auteurs: Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi
cs.AI

Résumé

Le matting vidéo conventionnel produit une seule matte alpha pour toutes les instances apparaissant dans une image vidéo, ce qui ne permet pas de distinguer les instances individuelles. Bien que la segmentation d'instances vidéo fournisse des masques d'instances cohérents dans le temps, les résultats sont insatisfaisants pour les applications de matting, notamment en raison de la binarisation appliquée. Pour remédier à cette lacune, nous proposons le Video Instance Matting (VIM), c'est-à-dire l'estimation des mattes alpha de chaque instance à chaque image d'une séquence vidéo. Pour résoudre ce problème complexe, nous présentons MSG-VIM, un réseau de neurones de Video Instance Matting guidé par une séquence de masques, comme modèle de référence novateur pour le VIM. MSG-VIM exploite un mélange d'augmentations de masques pour rendre les prédictions robustes aux guidages de masques imprécis et incohérents. Il intègre un guidage temporel des masques et des caractéristiques pour améliorer la cohérence temporelle des prédictions de mattes alpha. Par ailleurs, nous avons construit un nouveau benchmark pour le VIM, appelé VIM50, qui comprend 50 clips vidéo avec plusieurs instances humaines comme objets de premier plan. Pour évaluer les performances sur la tâche de VIM, nous introduisons une métrique appropriée appelée Video Instance-aware Matting Quality (VIMQ). Notre modèle proposé, MSG-VIM, établit une référence solide sur le benchmark VIM50 et surpasse les méthodes existantes de manière significative. Le projet est open-source à l'adresse https://github.com/SHI-Labs/VIM.
English
Conventional video matting outputs one alpha matte for all instances appearing in a video frame so that individual instances are not distinguished. While video instance segmentation provides time-consistent instance masks, results are unsatisfactory for matting applications, especially due to applied binarization. To remedy this deficiency, we propose Video Instance Matting~(VIM), that is, estimating alpha mattes of each instance at each frame of a video sequence. To tackle this challenging problem, we present MSG-VIM, a Mask Sequence Guided Video Instance Matting neural network, as a novel baseline model for VIM. MSG-VIM leverages a mixture of mask augmentations to make predictions robust to inaccurate and inconsistent mask guidance. It incorporates temporal mask and temporal feature guidance to improve the temporal consistency of alpha matte predictions. Furthermore, we build a new benchmark for VIM, called VIM50, which comprises 50 video clips with multiple human instances as foreground objects. To evaluate performances on the VIM task, we introduce a suitable metric called Video Instance-aware Matting Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50 benchmark and outperforms existing methods by a large margin. The project is open-sourced at https://github.com/SHI-Labs/VIM.
PDF110December 15, 2024