VideoMaMa: Mask-geleide video-matting via generatieve prior

Samenvatting

Het generaliseren van videomattingmodellen naar real-world video's blijft een grote uitdaging vanwege de schaarste aan gelabelde data. Om dit aan te pakken, presenteren we het Video Mask-to-Matte Model (VideoMaMa), dat grove segmentatiemaskers omzet in pixel-accurate alfamatten door gebruik te maken van voorgetrainde videodiffusiemodellen. VideoMaMa vertoont sterke zero-shot generalisatie naar real-world beelden, ook al is het uitsluitend getraind op synthetische data. Voortbouwend op deze capaciteit ontwikkelen we een schaalbare pseudolabeling-pijplijn voor grootschalige videomatting en construeren we de Matting Anything in Video (MA-V) dataset, die hoogwaardige mattingannotaties biedt voor meer dan 50.000 real-world video's die diverse scènes en bewegingen omvatten. Om de effectiviteit van deze dataset te valideren, fine-tunen we het SAM2-model op MA-V om SAM2-Matte te verkrijgen, dat dezelfde, op bestaande mattingdatasets getrainde model overtreft wat betreft robuustheid op in-the-wild video's. Deze bevindingen benadrukken het belang van grootschalige pseudo-gelabelde videomatting en tonen aan hoe generatieve prior kennis en toegankelijke segmentatieaanwijzingen schaalbare vooruitgang in videomattingonderzoek kunnen stimuleren.

English

Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.

VideoMaMa: Mask-geleide video-matting via generatieve prior

VideoMaMa: Mask-Guided Video Matting via Generative Prior

Samenvatting

Support