VideoMaMa: Matizado de Video Guiado por Máscara mediante Prior Generativo

Resumen

La generalización de los modelos de matteado de video a videos del mundo real sigue siendo un desafío significativo debido a la escasez de datos etiquetados. Para abordar esto, presentamos el Modelo de Máscara a Matte para Video (VideoMaMa), que convierte máscaras de segmentación aproximadas en mattes alfa con precisión a nivel de píxel, aprovechando modelos de difusión de video preentrenados. VideoMaMa demuestra una fuerte generalización de cero disparos a material de archivo del mundo real, a pesar de haber sido entrenado únicamente con datos sintéticos. Basándonos en esta capacidad, desarrollamos un pipeline escalable de pseudo-etiquetado para el matteado de video a gran escala y construimos el conjunto de datos Matting Anything in Video (MA-V), que ofrece anotaciones de matteado de alta calidad para más de 50,000 videos del mundo real que abarcan escenas y movimientos diversos. Para validar la efectividad de este conjunto de datos, ajustamos el modelo SAM2 en MA-V para obtener SAM2-Matte, el cual supera al mismo modelo entrenado en conjuntos de datos de matteado existentes en términos de robustez en videos en condiciones naturales. Estos hallazgos enfatizan la importancia del matteado de video pseudo-etiquetado a gran escala y demuestran cómo los antecedentes generativos y las señales de segmentación accesibles pueden impulsar un progreso escalable en la investigación del matteado de video.

English

Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.