ChatPaper.aiChatPaper

VideoPainter: Inpaintado y Edición de Videos de Cualquier Longitud con Control de Contexto Plug-and-Play

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

March 7, 2025
Autores: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu
cs.AI

Resumen

El inpaint de video, que tiene como objetivo restaurar contenido de video corrompido, ha experimentado un progreso sustancial. A pesar de estos avances, los métodos existentes, ya sea propagando píxeles de regiones no enmascaradas a través de flujo óptico y priores de campo receptivo, o extendiendo temporalmente modelos de inpaint de imágenes, enfrentan desafíos al generar objetos completamente enmascarados o equilibrar los objetivos contrapuestos de preservación del contexto de fondo y generación de primer plano en un solo modelo, respectivamente. Para abordar estas limitaciones, proponemos un nuevo paradigma de doble flujo, VideoPainter, que incorpora un codificador de contexto eficiente (que comprende solo el 6% de los parámetros del backbone) para procesar videos enmascarados e inyectar señales contextuales de fondo conscientes del backbone a cualquier video DiT preentrenado, produciendo contenido semánticamente consistente de manera plug-and-play. Esta separación arquitectónica reduce significativamente la complejidad de aprendizaje del modelo mientras permite una integración matizada del contexto de fondo crucial. También introducimos una novedosa técnica de remuestreo de ID de región objetivo que permite el inpaint de video de cualquier longitud, mejorando enormemente nuestra aplicabilidad práctica. Además, establecemos una pipeline de datos escalable que aprovecha los modelos actuales de comprensión visual, contribuyendo con VPData y VPBench para facilitar el entrenamiento y evaluación de inpaint basado en segmentación, el conjunto de datos y benchmark de inpaint de video más grande hasta la fecha con más de 390K clips diversos. Utilizando el inpaint como base de la pipeline, también exploramos aplicaciones posteriores, incluida la edición de video y la generación de datos de pares de edición de video, demostrando un rendimiento competitivo y un potencial práctico significativo. Experimentos extensos demuestran el rendimiento superior de VideoPainter tanto en el inpaint de video de cualquier longitud como en la edición, a través de ocho métricas clave, incluida la calidad del video, la preservación de la región enmascarada y la coherencia textual.
English
Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model's learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter's superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

Summary

AI-Generated Summary

PDF243March 10, 2025