VideoPainter : Réparation et édition vidéo de longueur variable avec contrôle contextuel plug-and-play

papers.abstract

La réparation vidéo, qui vise à restaurer le contenu vidéo corrompu, a connu des progrès substantiels. Malgré ces avancées, les méthodes existantes, qu'elles propagent les pixels des régions non masquées via des flux optiques et des a priori de champ réceptif, ou qu'elles étendent temporellement des modèles de réparation d'image, rencontrent des difficultés à générer des objets entièrement masqués ou à équilibrer les objectifs concurrents de préservation du contexte d'arrière-plan et de génération de premier plan dans un seul modèle, respectivement. Pour surmonter ces limitations, nous proposons un nouveau paradigme à double flux, VideoPainter, qui intègre un encodeur de contexte efficace (ne représentant que 6 % des paramètres du réseau principal) pour traiter les vidéos masquées et injecter des indices contextuels d'arrière-plan conscients du réseau principal à tout DiT vidéo pré-entraîné, produisant ainsi un contenu sémantiquement cohérent de manière plug-and-play. Cette séparation architecturale réduit significativement la complexité d'apprentissage du modèle tout en permettant une intégration nuancée du contexte d'arrière-plan crucial. Nous introduisons également une nouvelle technique de rééchantillonnage d'ID de région cible qui permet la réparation vidéo de toute longueur, améliorant grandement notre applicabilité pratique. De plus, nous établissons un pipeline de données scalable exploitant les modèles actuels de compréhension visuelle, contribuant VPData et VPBench pour faciliter l'entraînement et l'évaluation de la réparation basée sur la segmentation, constituant ainsi le plus grand ensemble de données et benchmark de réparation vidéo à ce jour avec plus de 390 000 clips divers. Utilisant la réparation comme base de pipeline, nous explorons également des applications en aval, y compris l'édition vidéo et la génération de données de paires d'édition vidéo, démontrant des performances compétitives et un potentiel pratique significatif. Des expériences approfondies démontrent la performance supérieure de VideoPainter à la fois dans la réparation vidéo de toute longueur et dans l'édition, à travers huit métriques clés, incluant la qualité vidéo, la préservation des régions masquées et la cohérence textuelle.

English

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model's learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter's superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

VideoPainter : Réparation et édition vidéo de longueur variable avec contrôle contextuel plug-and-play

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

papers.abstract

Support