MatAnyone : Matting vidéo stable avec propagation cohérente de la mémoire
MatAnyone: Stable Video Matting with Consistent Memory Propagation
January 24, 2025
Auteurs: Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy
cs.AI
Résumé
Les méthodes de détourage vidéo humain sans auxiliaire, qui reposent uniquement sur les images d'entrée, ont souvent du mal avec des arrière-plans complexes ou ambigus. Pour remédier à cela, nous proposons MatAnyone, un cadre robuste conçu pour le détourage vidéo assigné à une cible. Plus précisément, en s'appuyant sur un paradigme basé sur la mémoire, nous introduisons un module de propagation de mémoire cohérent via une fusion de mémoire adaptative par région, qui intègre de manière adaptative la mémoire de l'image précédente. Cela garantit une stabilité sémantique dans les régions centrales tout en préservant les détails fins le long des frontières des objets. Pour un entraînement robuste, nous présentons un ensemble de données plus grand, de haute qualité et diversifié pour le détourage vidéo. De plus, nous incorporons une nouvelle stratégie d'entraînement qui exploite efficacement des données de segmentation à grande échelle, renforçant la stabilité du détourage. Avec ce nouveau design de réseau, cet ensemble de données et cette stratégie d'entraînement, MatAnyone produit des résultats de détourage vidéo robustes et précis dans divers scénarios du monde réel, surpassant les méthodes existantes.
English
Auxiliary-free human video matting methods, which rely solely on input
frames, often struggle with complex or ambiguous backgrounds. To address this,
we propose MatAnyone, a robust framework tailored for target-assigned video
matting. Specifically, building on a memory-based paradigm, we introduce a
consistent memory propagation module via region-adaptive memory fusion, which
adaptively integrates memory from the previous frame. This ensures semantic
stability in core regions while preserving fine-grained details along object
boundaries. For robust training, we present a larger, high-quality, and diverse
dataset for video matting. Additionally, we incorporate a novel training
strategy that efficiently leverages large-scale segmentation data, boosting
matting stability. With this new network design, dataset, and training
strategy, MatAnyone delivers robust and accurate video matting results in
diverse real-world scenarios, outperforming existing methods.Summary
AI-Generated Summary