VideoPainter: Inpainting und Bearbeitung von Videos beliebiger Länge mit Plug-and-Play-Kontextsteuerung

papers.abstract

Video-Inpainting, das darauf abzielt, beschädigte Videoinhalte wiederherzustellen, hat erhebliche Fortschritte gemacht. Trotz dieser Fortschritte stehen bestehende Methoden, sei es die Weitergabe von Pixeln aus nicht maskierten Regionen durch optischen Fluss und rezeptive Feld-Priors oder die zeitliche Erweiterung von Bild-Inpainting-Modellen, vor Herausforderungen bei der Generierung vollständig maskierter Objekte oder der Balance zwischen den konkurrierenden Zielen der Hintergrundkontextbewahrung und der Vordergrundgenerierung in einem Modell. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Dual-Stream-Paradigma, VideoPainter, vor, das einen effizienten Kontext-Encoder (der nur 6 % der Backbone-Parameter umfasst) integriert, um maskierte Videos zu verarbeiten und backbone-bewusste Hintergrundkontextinformationen in jedes vortrainierte Video-DiT einzubringen, wodurch semantisch konsistente Inhalte auf Plug-and-Play-Weise erzeugt werden. Diese architektonische Trennung reduziert die Lernkomplexität des Modells erheblich und ermöglicht gleichzeitig die fein abgestimmte Integration von entscheidendem Hintergrundkontext. Wir führen auch eine neuartige Zielregion-ID-Resampling-Technik ein, die das Inpainting von Videos beliebiger Länge ermöglicht und damit unsere praktische Anwendbarkeit erheblich verbessert. Zusätzlich etablieren wir eine skalierbare Datensatz-Pipeline, die aktuelle Modelle zur Bildverarbeitung nutzt, und tragen mit VPData und VPBench zur segmentierungsbasierten Inpainting-Schulung und -Bewertung bei, dem größten Video-Inpainting-Datensatz und Benchmark mit über 390.000 vielfältigen Clips. Indem wir Inpainting als Grundlage der Pipeline verwenden, erkunden wir auch nachgelagerte Anwendungen, einschließlich Video-Bearbeitung und die Generierung von Video-Bearbeitungspaar-Daten, und demonstrieren dabei wettbewerbsfähige Leistung und erhebliches praktisches Potenzial. Umfangreiche Experimente zeigen die überlegene Leistung von VideoPainter sowohl beim Inpainting als auch bei der Bearbeitung von Videos beliebiger Länge über acht Schlüsselmetriken hinweg, einschließlich Videoqualität, Maskenregionbewahrung und textueller Kohärenz.

English

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model's learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter's superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

VideoPainter: Inpainting und Bearbeitung von Videos beliebiger Länge mit Plug-and-Play-Kontextsteuerung

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

papers.abstract

Support