ChatPaper.aiChatPaper

MatAnyone: Mateado de video estable con propagación de memoria consistente

MatAnyone: Stable Video Matting with Consistent Memory Propagation

January 24, 2025
Autores: Peiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy
cs.AI

Resumen

Los métodos de extracción de primer plano en videos de humanos sin necesidad de auxiliares, que dependen únicamente de los fotogramas de entrada, a menudo tienen dificultades con fondos complejos o ambiguos. Para abordar esto, proponemos MatAnyone, un marco robusto diseñado para la extracción de primer plano en videos asignados a un objetivo. Específicamente, basándonos en un paradigma basado en memoria, introducimos un módulo de propagación de memoria consistente a través de una fusión de memoria adaptativa por regiones, que integra de manera adaptativa la memoria del fotograma anterior. Esto garantiza estabilidad semántica en las regiones centrales mientras se preservan los detalles detallados a lo largo de los límites de los objetos. Para un entrenamiento robusto, presentamos un conjunto de datos más grande, de alta calidad y diverso para la extracción de primer plano en videos. Además, incorporamos una estrategia de entrenamiento novedosa que aprovecha de manera eficiente datos de segmentación a gran escala, mejorando la estabilidad en la extracción de primer plano. Con este nuevo diseño de red, conjunto de datos y estrategia de entrenamiento, MatAnyone ofrece resultados robustos y precisos en la extracción de primer plano en videos en diversos escenarios del mundo real, superando a los métodos existentes.
English
Auxiliary-free human video matting methods, which rely solely on input frames, often struggle with complex or ambiguous backgrounds. To address this, we propose MatAnyone, a robust framework tailored for target-assigned video matting. Specifically, building on a memory-based paradigm, we introduce a consistent memory propagation module via region-adaptive memory fusion, which adaptively integrates memory from the previous frame. This ensures semantic stability in core regions while preserving fine-grained details along object boundaries. For robust training, we present a larger, high-quality, and diverse dataset for video matting. Additionally, we incorporate a novel training strategy that efficiently leverages large-scale segmentation data, boosting matting stability. With this new network design, dataset, and training strategy, MatAnyone delivers robust and accurate video matting results in diverse real-world scenarios, outperforming existing methods.

Summary

AI-Generated Summary

PDF362February 3, 2025