ChatPaper.aiChatPaper

VideoPainter: Inpainting e Modifica Video di Qualsiasi Durata con Controllo Contestuale Plug-and-Play

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

March 7, 2025
Autori: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu
cs.AI

Abstract

Il video inpainting, che mira a ripristinare contenuti video danneggiati, ha registrato progressi significativi. Nonostante questi avanzamenti, i metodi esistenti, che propagano i pixel delle regioni non mascherate attraverso il flusso ottico e i priori del campo recettivo, o estendono temporalmente i modelli di inpainting di immagini, affrontano sfide nella generazione di oggetti completamente mascherati o nel bilanciare gli obiettivi concorrenti di preservazione del contesto dello sfondo e generazione del primo piano in un unico modello. Per affrontare queste limitazioni, proponiamo un nuovo paradigma dual-stream, VideoPainter, che incorpora un codificatore di contesto efficiente (composto solo dal 6% dei parametri del backbone) per elaborare video mascherati e iniettare segnali contestuali dello sfondo consapevoli del backbone in qualsiasi video DiT pre-addestrato, producendo contenuti semanticamente coerenti in modalità plug-and-play. Questa separazione architetturale riduce significativamente la complessità di apprendimento del modello, consentendo al contempo un'integrazione sfumata del contesto dello sfondo cruciale. Introduciamo anche una nuova tecnica di ricampionamento dell'ID della regione target che consente l'inpainting di video di qualsiasi lunghezza, migliorando notevolmente la nostra applicabilità pratica. Inoltre, stabiliamo una pipeline di dataset scalabile sfruttando i modelli di comprensione visiva attuali, contribuendo con VPData e VPBench per facilitare l'addestramento e la valutazione dell'inpainting basato sulla segmentazione, il più grande dataset e benchmark di video inpainting fino ad oggi con oltre 390K clip diverse. Utilizzando l'inpainting come base della pipeline, esploriamo anche applicazioni downstream, tra cui l'editing video e la generazione di dati di coppia per l'editing video, dimostrando prestazioni competitive e un significativo potenziale pratico. Esperimenti estensivi dimostrano la performance superiore di VideoPainter sia nell'inpainting di video di qualsiasi lunghezza che nell'editing, attraverso otto metriche chiave, tra cui qualità video, preservazione della regione mascherata e coerenza testuale.
English
Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model's learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter's superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

Summary

AI-Generated Summary

PDF243March 10, 2025