ChatPaper.aiChatPaper

MatAnyone: Stabile Videomattierung mit konsistenter Speicherpropagation

MatAnyone: Stable Video Matting with Consistent Memory Propagation

January 24, 2025
Autoren: Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy
cs.AI

Zusammenfassung

Auxiliarfreie Methoden für die Videomaskierung von Personen, die ausschließlich auf Eingabeframes basieren, haben oft Schwierigkeiten mit komplexen oder mehrdeutigen Hintergründen. Um dies zu lösen, schlagen wir MatAnyone vor, ein robustes Framework, das speziell für die zielgerichtete Videomaskierung entwickelt wurde. Konkret bauen wir auf einem speicherbasierten Paradigma auf und führen ein konsistentes Speicherpropagationsmodul über eine regionsadaptive Speicherfusion ein, das adaptiv Speicher aus dem vorherigen Frame integriert. Dies gewährleistet semantische Stabilität in Kernregionen und bewahrt fein abgestufte Details entlang der Objektgrenzen. Für ein robustes Training präsentieren wir einen größeren, qualitativ hochwertigen und vielfältigen Datensatz für die Videomaskierung. Zusätzlich integrieren wir eine neuartige Trainingsstrategie, die effizient große Mengen an Segmentierungsdaten nutzt und die Stabilität der Maskierung verbessert. Mit diesem neuen Netzwerkdesign, Datensatz und Trainingsstrategie liefert MatAnyone robuste und präzise Ergebnisse bei der Videomaskierung in verschiedenen realen Szenarien und übertrifft dabei bestehende Methoden.
English
Auxiliary-free human video matting methods, which rely solely on input frames, often struggle with complex or ambiguous backgrounds. To address this, we propose MatAnyone, a robust framework tailored for target-assigned video matting. Specifically, building on a memory-based paradigm, we introduce a consistent memory propagation module via region-adaptive memory fusion, which adaptively integrates memory from the previous frame. This ensures semantic stability in core regions while preserving fine-grained details along object boundaries. For robust training, we present a larger, high-quality, and diverse dataset for video matting. Additionally, we incorporate a novel training strategy that efficiently leverages large-scale segmentation data, boosting matting stability. With this new network design, dataset, and training strategy, MatAnyone delivers robust and accurate video matting results in diverse real-world scenarios, outperforming existing methods.

Summary

AI-Generated Summary

PDF362February 3, 2025