VideoPainter: Inpaintado y Edición de Videos de Cualquier Longitud con Control de Contexto Plug-and-Play
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control
March 7, 2025
Autores: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu
cs.AI
Resumen
El inpaint de video, que tiene como objetivo restaurar contenido de video corrompido, ha experimentado un progreso sustancial. A pesar de estos avances, los métodos existentes, ya sea propagando píxeles de regiones no enmascaradas a través de flujo óptico y priores de campo receptivo, o extendiendo temporalmente modelos de inpaint de imágenes, enfrentan desafíos al generar objetos completamente enmascarados o equilibrar los objetivos contrapuestos de preservación del contexto de fondo y generación de primer plano en un solo modelo, respectivamente. Para abordar estas limitaciones, proponemos un nuevo paradigma de doble flujo, VideoPainter, que incorpora un codificador de contexto eficiente (que comprende solo el 6% de los parámetros del backbone) para procesar videos enmascarados e inyectar señales contextuales de fondo conscientes del backbone a cualquier video DiT preentrenado, produciendo contenido semánticamente consistente de manera plug-and-play. Esta separación arquitectónica reduce significativamente la complejidad de aprendizaje del modelo mientras permite una integración matizada del contexto de fondo crucial. También introducimos una novedosa técnica de remuestreo de ID de región objetivo que permite el inpaint de video de cualquier longitud, mejorando enormemente nuestra aplicabilidad práctica. Además, establecemos una pipeline de datos escalable que aprovecha los modelos actuales de comprensión visual, contribuyendo con VPData y VPBench para facilitar el entrenamiento y evaluación de inpaint basado en segmentación, el conjunto de datos y benchmark de inpaint de video más grande hasta la fecha con más de 390K clips diversos. Utilizando el inpaint como base de la pipeline, también exploramos aplicaciones posteriores, incluida la edición de video y la generación de datos de pares de edición de video, demostrando un rendimiento competitivo y un potencial práctico significativo. Experimentos extensos demuestran el rendimiento superior de VideoPainter tanto en el inpaint de video de cualquier longitud como en la edición, a través de ocho métricas clave, incluida la calidad del video, la preservación de la región enmascarada y la coherencia textual.
English
Video inpainting, which aims to restore corrupted video content, has
experienced substantial progress. Despite these advances, existing methods,
whether propagating unmasked region pixels through optical flow and receptive
field priors, or extending image-inpainting models temporally, face challenges
in generating fully masked objects or balancing the competing objectives of
background context preservation and foreground generation in one model,
respectively. To address these limitations, we propose a novel dual-stream
paradigm VideoPainter that incorporates an efficient context encoder
(comprising only 6% of the backbone parameters) to process masked videos and
inject backbone-aware background contextual cues to any pre-trained video DiT,
producing semantically consistent content in a plug-and-play manner. This
architectural separation significantly reduces the model's learning complexity
while enabling nuanced integration of crucial background context. We also
introduce a novel target region ID resampling technique that enables any-length
video inpainting, greatly enhancing our practical applicability. Additionally,
we establish a scalable dataset pipeline leveraging current vision
understanding models, contributing VPData and VPBench to facilitate
segmentation-based inpainting training and assessment, the largest video
inpainting dataset and benchmark to date with over 390K diverse clips. Using
inpainting as a pipeline basis, we also explore downstream applications
including video editing and video editing pair data generation, demonstrating
competitive performance and significant practical potential. Extensive
experiments demonstrate VideoPainter's superior performance in both any-length
video inpainting and editing, across eight key metrics, including video
quality, mask region preservation, and textual coherence.Summary
AI-Generated Summary