VideoPainter : Réparation et édition vidéo de longueur variable avec contrôle contextuel plug-and-play
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control
March 7, 2025
Auteurs: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu
cs.AI
Résumé
La réparation vidéo, qui vise à restaurer le contenu vidéo corrompu, a connu des progrès substantiels. Malgré ces avancées, les méthodes existantes, qu'elles propagent les pixels des régions non masquées via des flux optiques et des a priori de champ réceptif, ou qu'elles étendent temporellement des modèles de réparation d'image, rencontrent des difficultés à générer des objets entièrement masqués ou à équilibrer les objectifs concurrents de préservation du contexte d'arrière-plan et de génération de premier plan dans un seul modèle, respectivement. Pour surmonter ces limitations, nous proposons un nouveau paradigme à double flux, VideoPainter, qui intègre un encodeur de contexte efficace (ne représentant que 6 % des paramètres du réseau principal) pour traiter les vidéos masquées et injecter des indices contextuels d'arrière-plan conscients du réseau principal à tout DiT vidéo pré-entraîné, produisant ainsi un contenu sémantiquement cohérent de manière plug-and-play. Cette séparation architecturale réduit significativement la complexité d'apprentissage du modèle tout en permettant une intégration nuancée du contexte d'arrière-plan crucial. Nous introduisons également une nouvelle technique de rééchantillonnage d'ID de région cible qui permet la réparation vidéo de toute longueur, améliorant grandement notre applicabilité pratique. De plus, nous établissons un pipeline de données scalable exploitant les modèles actuels de compréhension visuelle, contribuant VPData et VPBench pour faciliter l'entraînement et l'évaluation de la réparation basée sur la segmentation, constituant ainsi le plus grand ensemble de données et benchmark de réparation vidéo à ce jour avec plus de 390 000 clips divers. Utilisant la réparation comme base de pipeline, nous explorons également des applications en aval, y compris l'édition vidéo et la génération de données de paires d'édition vidéo, démontrant des performances compétitives et un potentiel pratique significatif. Des expériences approfondies démontrent la performance supérieure de VideoPainter à la fois dans la réparation vidéo de toute longueur et dans l'édition, à travers huit métriques clés, incluant la qualité vidéo, la préservation des régions masquées et la cohérence textuelle.
English
Video inpainting, which aims to restore corrupted video content, has
experienced substantial progress. Despite these advances, existing methods,
whether propagating unmasked region pixels through optical flow and receptive
field priors, or extending image-inpainting models temporally, face challenges
in generating fully masked objects or balancing the competing objectives of
background context preservation and foreground generation in one model,
respectively. To address these limitations, we propose a novel dual-stream
paradigm VideoPainter that incorporates an efficient context encoder
(comprising only 6% of the backbone parameters) to process masked videos and
inject backbone-aware background contextual cues to any pre-trained video DiT,
producing semantically consistent content in a plug-and-play manner. This
architectural separation significantly reduces the model's learning complexity
while enabling nuanced integration of crucial background context. We also
introduce a novel target region ID resampling technique that enables any-length
video inpainting, greatly enhancing our practical applicability. Additionally,
we establish a scalable dataset pipeline leveraging current vision
understanding models, contributing VPData and VPBench to facilitate
segmentation-based inpainting training and assessment, the largest video
inpainting dataset and benchmark to date with over 390K diverse clips. Using
inpainting as a pipeline basis, we also explore downstream applications
including video editing and video editing pair data generation, demonstrating
competitive performance and significant practical potential. Extensive
experiments demonstrate VideoPainter's superior performance in both any-length
video inpainting and editing, across eight key metrics, including video
quality, mask region preservation, and textual coherence.Summary
AI-Generated Summary