VideoMaMa: Matting de Vídeo Guiado por Máscara via Prior Generativo

Resumo

A generalização de modelos de matte de vídeo para vídeos do mundo real continua a ser um desafio significativo devido à escassez de dados rotulados. Para resolver isso, apresentamos o Video Mask-to-Matte Model (VideoMaMa), que converte máscaras de segmentação grosseiras em mattes alfa com precisão de pixel, aproveitando modelos de difusão de vídeo pré-treinados. O VideoMaMa demonstra uma forte generalização de *zero-shot* para filmagens do mundo real, embora seja treinado apenas com dados sintéticos. Com base nessa capacidade, desenvolvemos um *pipeline* escalável de pseudo-rotulagem para matte de vídeo em larga escala e construímos o conjunto de dados Matting Anything in Video (MA-V), que oferece anotações de matte de alta qualidade para mais de 50 mil vídeos do mundo real, abrangendo diversas cenas e movimentos. Para validar a eficácia deste conjunto de dados, afinamos o modelo SAM2 no MA-V para obter o SAM2-Matte, que supera o mesmo modelo treinado em conjuntos de dados de matte existentes em termos de robustez em vídeos do mundo real. Essas descobertas enfatizam a importância do pseudo-rotulagem em larga escala para matte de vídeo e demonstram como *priors* generativos e pistas de segmentação acessíveis podem impulsionar progressos escaláveis na pesquisa de matte de vídeo.

English

Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.

VideoMaMa: Matting de Vídeo Guiado por Máscara via Prior Generativo

VideoMaMa: Mask-Guided Video Matting via Generative Prior

Resumo

Support