VideoMaMa: Маскированное видеоматирование с помощью генеративных аэприоров
VideoMaMa: Mask-Guided Video Matting via Generative Prior
January 20, 2026
Авторы: Sangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee
cs.AI
Аннотация
Обобщение моделей видеоматирования на реальные видео остается серьезной проблемой из-за нехватки размеченных данных. Для решения этой задачи мы представляем Video Mask-to-Matte Model (VideoMaMa), которая преобразует грубые маски сегментации в пиксельно-точные альфа-маты, используя предобученные модели диффузии для видео. VideoMaMa демонстрирует сильную способность к нулевому обобщению на реальные видеозаписи, несмотря на то, что обучалась исключительно на синтетических данных. Опираясь на эту возможность, мы разрабатываем масштабируемый конвейер псевдоразметки для крупномасштабного видеоматирования и создаем набор данных Matting Anything in Video (MA-V), который содержит высококачественные аннотации матирования для более чем 50 тыс. реальных видео, охватывающих разнообразные сцены и движения. Для проверки эффективности этого набора данных мы дообучаем модель SAM2 на MA-V, получая SAM2-Matte, которая превосходит ту же модель, обученную на существующих наборах данных для матирования, по устойчивости на видеороликах в естественных условиях. Эти результаты подчеркивают важность крупномасштабного псевдоразмеченного видеоматирования и показывают, как генеративные априорные знания и доступные подсказки сегментации могут способствовать масштабируемому прогрессу в исследованиях видеоматирования.
English
Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.