VideoMaMa : Matting vidéo guidé par masque via un a priori génératif
VideoMaMa: Mask-Guided Video Matting via Generative Prior
January 20, 2026
papers.authors: Sangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee
cs.AI
papers.abstract
La généralisation des modèles de matting vidéo aux vidéos du monde réel reste un défi majeur en raison de la rareté des données annotées. Pour y remédier, nous présentons le modèle Video Mask-to-Matte (VideoMaMa) qui convertit des masques de segmentation grossiers en mattes alpha précis au niveau du pixel, en exploitant des modèles de diffusion vidéo pré-entraînés. VideoMaMa démontre une forte capacité de généralisation zero-shot sur des séquences réelles, bien qu'il soit uniquement entraîné sur des données synthétiques. En nous appuyant sur cette capacité, nous développons un pipeline d'étiquetage pseudo-supervisé évolutif pour le matting vidéo à grande échelle et constituons le jeu de données Matting Anything in Video (MA-V), qui fournit des annotations de matting de haute qualité pour plus de 50 000 vidéos réelles couvrant des scènes et des mouvements variés. Pour valider l'efficacité de ce jeu de données, nous affinons le modèle SAM2 sur MA-V pour obtenir SAM2-Matte, qui surpasse le même modèle entraîné sur des jeux de données de matting existants en termes de robustesse sur des vidéos in-the-wild. Ces résultats soulignent l'importance du matting vidéo pseudo-étiqueté à grande échelle et montrent comment les préalables génératifs et les indices de segmentation accessibles peuvent stimuler les progrès évolutifs dans la recherche sur le matting vidéo.
English
Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.