ChatPaper.aiChatPaper

VideoMaMa: 생성적 사전 지식을 활용한 마스크 기반 비디오 매팅

VideoMaMa: Mask-Guided Video Matting via Generative Prior

January 20, 2026
저자: Sangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee
cs.AI

초록

레이블된 데이터의 부족으로 인해 비디오 매팅 모델을 실제 비디오에 일반화하는 것은 여전히 큰 과제로 남아 있습니다. 이를 해결하기 위해 우리는 사전 학습된 비디오 확산 모델을 활용하여 조잡한 분할 마스크를 픽셀 단위 정확도의 알파 매트로 변환하는 Video Mask-to-Matte Model(VideoMaMa)을 제안합니다. VideoMaMa는 합성 데이터만으로 훈련되었음에도 불구하고 실제 영상에 대한 강력한 제로샷 일반화 성능을 보여줍니다. 이 능력을 바탕으로 우리는 대규모 비디오 매팅을 위한 확장 가능한 의사 레이블링 파이프라인을 개발하고, 다양한 장면과 동작을 아우르는 5만 개 이상의 실제 비디오에 대한 고품질 매팅 주석을 제공하는 Matting Anything in Video(MA-V) 데이터셋을 구축했습니다. 이 데이터셋의 효과를 검증하기 위해 SAM2 모델을 MA-V로 미세 조정하여 SAM2-Matte를 얻었으며, 이는 기존 매팅 데이터셋으로 훈련된 동일 모델보다 실제 영상에 대한 견고성 측면에서 더 우수한 성능을 보였습니다. 이러한 결과는 대규모 의사 레이블링 비디오 매팅의 중요성을 강조하며, 생성적 사전 지식과 접근 가능한 분할 단서가 비디오 매팅 연구의 확장 가능한 발전을 이끌 수 있음을 보여줍니다.
English
Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.
PDF81January 24, 2026