VideoMaMa: Masken-geführtes Video-Matting mittels generativer Vorinformationen
VideoMaMa: Mask-Guided Video Matting via Generative Prior
January 20, 2026
papers.authors: Sangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee
cs.AI
papers.abstract
Die Generalisierung von Video-Matting-Modellen auf reale Videodaten stellt aufgrund der Knappheit an annotierten Daten nach wie vor eine große Herausforderung dar. Um dies zu adressieren, präsentieren wir das Video Mask-to-Matte Model (VideoMaMa), das grobe Segmentierungsmasken durch die Nutzung vortrainierter Video-Diffusionsmodelle in pixelgenaue Alpha-Matts umwandelt. VideoMaMa zeigt eine starke Null-Shot-Generalisierung auf reale Videosequenzen, obwohl es ausschließlich auf synthetischen Daten trainiert wurde. Aufbauend auf dieser Fähigkeit entwickeln wir eine skalierbare Pseudolabeling-Pipeline für großflächiges Video-Matting und erstellen den „Matting Anything in Video“ (MA-V)-Datensatz, der hochwertige Matting-Annotationen für mehr als 50.000 reale Videos aus diversen Szenen und mit unterschiedlichen Bewegungen bereitstellt. Um die Wirksamkeit dieses Datensatzes zu validieren, feintunen wir das SAM2-Modell auf MA-V, um SAM2-Matte zu erhalten, das in Bezug auf Robustheit bei unkontrolliert aufgenommenen Videos das gleiche, auf bestehenden Matting-Datensätzen trainierte Modell übertrifft. Diese Ergebnisse unterstreichen die Bedeutung von großflächig pseudolabelbasiertem Video-Matting und zeigen, wie generative Priors und zugängliche Segmentierungshinweise skalierbare Fortschritte in der Video-Matting-Forschung vorantreiben können.
English
Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.