MatAnyone: Stabile Videomattierung mit konsistenter Speicherpropagation
MatAnyone: Stable Video Matting with Consistent Memory Propagation
January 24, 2025
Autoren: Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy
cs.AI
Zusammenfassung
Auxiliarfreie Methoden für die Videomaskierung von Personen, die ausschließlich auf Eingabeframes basieren, haben oft Schwierigkeiten mit komplexen oder mehrdeutigen Hintergründen. Um dies zu lösen, schlagen wir MatAnyone vor, ein robustes Framework, das speziell für die zielgerichtete Videomaskierung entwickelt wurde. Konkret bauen wir auf einem speicherbasierten Paradigma auf und führen ein konsistentes Speicherpropagationsmodul über eine regionsadaptive Speicherfusion ein, das adaptiv Speicher aus dem vorherigen Frame integriert. Dies gewährleistet semantische Stabilität in Kernregionen und bewahrt fein abgestufte Details entlang der Objektgrenzen. Für ein robustes Training präsentieren wir einen größeren, qualitativ hochwertigen und vielfältigen Datensatz für die Videomaskierung. Zusätzlich integrieren wir eine neuartige Trainingsstrategie, die effizient große Mengen an Segmentierungsdaten nutzt und die Stabilität der Maskierung verbessert. Mit diesem neuen Netzwerkdesign, Datensatz und Trainingsstrategie liefert MatAnyone robuste und präzise Ergebnisse bei der Videomaskierung in verschiedenen realen Szenarien und übertrifft dabei bestehende Methoden.
English
Auxiliary-free human video matting methods, which rely solely on input
frames, often struggle with complex or ambiguous backgrounds. To address this,
we propose MatAnyone, a robust framework tailored for target-assigned video
matting. Specifically, building on a memory-based paradigm, we introduce a
consistent memory propagation module via region-adaptive memory fusion, which
adaptively integrates memory from the previous frame. This ensures semantic
stability in core regions while preserving fine-grained details along object
boundaries. For robust training, we present a larger, high-quality, and diverse
dataset for video matting. Additionally, we incorporate a novel training
strategy that efficiently leverages large-scale segmentation data, boosting
matting stability. With this new network design, dataset, and training
strategy, MatAnyone delivers robust and accurate video matting results in
diverse real-world scenarios, outperforming existing methods.Summary
AI-Generated Summary