VideoMaMa: Video Matting Guidato da Maschera tramite Prior Generativo

Abstract

La generalizzazione dei modelli di video matting a video del mondo reale rimane una sfida significativa a causa della scarsità di dati etichettati. Per affrontare questo problema, presentiamo Video Mask-to-Matte Model (VideoMaMa), che converte maschere di segmentazione approssimative in alpha matte pixel-accurati, sfruttando modelli di diffusione video pre-addestrati. VideoMaMa dimostra una forte generalizzazione zero-shot su filmati reali, nonostante sia addestrato esclusivamente su dati sintetici. Basandoci su questa capacità, sviluppiamo una pipeline scalabile di pseudo-etichettatura per il video matting su larga scala e costruiamo il dataset Matting Anything in Video (MA-V), che fornisce annotazioni di matting di alta qualità per oltre 50.000 video del mondo reale che abbracciano scene e movimenti diversificati. Per validare l'efficacia di questo dataset, ottimizziamo il modello SAM2 su MA-V per ottenere SAM2-Matte, che supera lo stesso modello addestrato su dataset di matting esistenti in termini di robustezza su video in condizioni reali. Questi risultati sottolineano l'importanza del video matting pseudo-etichettato su larga scala e dimostrano come i priori generativi e i segnali di segmentazione accessibili possano guidare progressi scalabili nella ricerca sul video matting.

English

Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.

VideoMaMa: Video Matting Guidato da Maschera tramite Prior Generativo

VideoMaMa: Mask-Guided Video Matting via Generative Prior

Abstract

Support