VideoPainter: Video-inpainting en bewerking van elke lengte met plug-and-play contextbeheersing

Samenvatting

Video-inpainting, dat als doel heeft beschadigde videocontent te herstellen, heeft aanzienlijke vooruitgang geboekt. Ondanks deze ontwikkelingen worden bestaande methoden, of ze nu pixels van niet-gemaskerde gebieden verspreiden via optische stroming en receptieve veld-priors, of beeld-inpainting-modellen tijdelijk uitbreiden, geconfronteerd met uitdagingen bij het genereren van volledig gemaskeerde objecten of het balanceren van de concurrerende doelstellingen van achtergrondcontextbehoud en voorgrondgeneratie in één model. Om deze beperkingen aan te pakken, stellen we een nieuw dual-stream paradigma voor, VideoPainter, dat een efficiënte contextencoder omvat (slechts 6% van de backbone-parameters) om gemaskeerde video's te verwerken en backbone-achtige achtergrondcontextuele signalen in te brengen in elke vooraf getrainde video DiT, waardoor semantisch consistente inhoud op een plug-and-play-manier wordt geproduceerd. Deze architecturale scheiding vermindert de leercomplexiteit van het model aanzienlijk, terwijl het een genuanceerde integratie van cruciale achtergrondcontext mogelijk maakt. We introduceren ook een nieuwe doelregio-ID-hersamplingstechniek die inpainting van video's van elke lengte mogelijk maakt, wat onze praktische toepasbaarheid aanzienlijk vergroot. Daarnaast stellen we een schaalbare datasetpijplijn op die gebruikmaakt van huidige visiebegripsmodellen, waarbij we VPData en VPBench bijdragen om segmentatiegebaseerde inpaintingtraining en -beoordeling te vergemakkelijken, de grootste video-inpaintingdataset en benchmark tot nu toe met meer dan 390K diverse clips. Door inpainting als basis voor de pijplijn te gebruiken, verkennen we ook downstreamtoepassingen, waaronder video-editing en video-editingpaardatageneratie, waarbij we competitieve prestaties en aanzienlijk praktisch potentieel demonstreren. Uitgebreide experimenten tonen de superieure prestaties van VideoPainter aan in zowel inpainting van video's van elke lengte als editing, over acht belangrijke metrieken, waaronder videokwaliteit, maskerregiobehoud en tekstuele samenhang.

English

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model's learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter's superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

VideoPainter: Video-inpainting en bewerking van elke lengte met plug-and-play contextbeheersing

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

Samenvatting

Support