ChatPaper.aiChatPaper

MatAnyone : Matting vidéo stable avec propagation cohérente de la mémoire

MatAnyone: Stable Video Matting with Consistent Memory Propagation

January 24, 2025
Auteurs: Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy
cs.AI

Résumé

Les méthodes de détourage vidéo humain sans auxiliaire, qui reposent uniquement sur les images d'entrée, ont souvent du mal avec des arrière-plans complexes ou ambigus. Pour remédier à cela, nous proposons MatAnyone, un cadre robuste conçu pour le détourage vidéo assigné à une cible. Plus précisément, en s'appuyant sur un paradigme basé sur la mémoire, nous introduisons un module de propagation de mémoire cohérent via une fusion de mémoire adaptative par région, qui intègre de manière adaptative la mémoire de l'image précédente. Cela garantit une stabilité sémantique dans les régions centrales tout en préservant les détails fins le long des frontières des objets. Pour un entraînement robuste, nous présentons un ensemble de données plus grand, de haute qualité et diversifié pour le détourage vidéo. De plus, nous incorporons une nouvelle stratégie d'entraînement qui exploite efficacement des données de segmentation à grande échelle, renforçant la stabilité du détourage. Avec ce nouveau design de réseau, cet ensemble de données et cette stratégie d'entraînement, MatAnyone produit des résultats de détourage vidéo robustes et précis dans divers scénarios du monde réel, surpassant les méthodes existantes.
English
Auxiliary-free human video matting methods, which rely solely on input frames, often struggle with complex or ambiguous backgrounds. To address this, we propose MatAnyone, a robust framework tailored for target-assigned video matting. Specifically, building on a memory-based paradigm, we introduce a consistent memory propagation module via region-adaptive memory fusion, which adaptively integrates memory from the previous frame. This ensures semantic stability in core regions while preserving fine-grained details along object boundaries. For robust training, we present a larger, high-quality, and diverse dataset for video matting. Additionally, we incorporate a novel training strategy that efficiently leverages large-scale segmentation data, boosting matting stability. With this new network design, dataset, and training strategy, MatAnyone delivers robust and accurate video matting results in diverse real-world scenarios, outperforming existing methods.

Summary

AI-Generated Summary

PDF362February 3, 2025