VideoMaMa:マスク誘導型生成的事前分布によるビデオマット合成
VideoMaMa: Mask-Guided Video Matting via Generative Prior
January 20, 2026
著者: Sangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee
cs.AI
要旨
映像マッティングモデルの実世界映像への一般化は、ラベル付きデータの不足により依然として大きな課題である。この問題に対処するため、我々は事前学習済みの映像拡散モデルを活用し、粗いセグメンテーションマスクをピクセル精度のアルファマットに変換するVideo Mask-to-Matte Model (VideoMaMa) を提案する。VideoMaMaは合成データのみで学習されているにも関わらず、実写映像に対して強力なゼロショット一般化能力を示す。この能力を基盤として、大規模映像マッティングのためのスケーラブルな擬似ラベリングパイプラインを構築し、多様なシーンと動きを包含する5万以上の実写映像に対して高品質なマッティング注釈を提供するMatting Anything in Video (MA-V) データセットを作成した。このデータセットの有効性を検証するため、SAM2モデルをMA-VでファインチューニングしSAM2-Matteを開発したところ、従来のマッティングデータセットで学習した同一モデルよりも、実世界映像におけるロバスト性で優れた性能を示した。これらの知見は、大規模な擬似ラベル付き映像マッティングデータの重要性を強調するとともに、生成的事前知識と利用可能なセグメンテーション手がかりが、映像マッティング研究のスケーラブルな進展を如何に推進し得るかを示すものである。
English
Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.