VideoPainter: Inpaintagem e Edição de Vídeos de Qualquer Duração com Controle de Contexto Plug-and-Play

Resumo

A restauração de vídeos (video inpainting), que visa recuperar conteúdos de vídeo corrompidos, tem experimentado progressos significativos. Apesar desses avanços, os métodos existentes, seja propagando pixels de regiões não mascaradas através de fluxo óptico e prioridades de campo receptivo, ou estendendo modelos de restauração de imagens temporalmente, enfrentam desafios na geração de objetos totalmente mascarados ou no equilíbrio dos objetivos concorrentes de preservação de contexto de fundo e geração de primeiro plano em um único modelo, respectivamente. Para abordar essas limitações, propomos um novo paradigma de fluxo duplo, o VideoPainter, que incorpora um codificador de contexto eficiente (composto por apenas 6% dos parâmetros da estrutura principal) para processar vídeos mascarados e injetar pistas contextuais de fundo conscientes da estrutura principal em qualquer DiT de vídeo pré-treinado, produzindo conteúdo semanticamente consistente de maneira plug-and-play. Essa separação arquitetônica reduz significativamente a complexidade de aprendizado do modelo, ao mesmo tempo que permite uma integração sutil do contexto crucial de fundo. Também introduzimos uma nova técnica de reamostragem de ID de região alvo que permite a restauração de vídeos de qualquer duração, aumentando muito nossa aplicabilidade prática. Além disso, estabelecemos um pipeline de conjunto de dados escalável, aproveitando os modelos atuais de compreensão visual, contribuindo com o VPData e o VPBench para facilitar o treinamento e avaliação de restauração baseada em segmentação, o maior conjunto de dados e benchmark de restauração de vídeo até o momento, com mais de 390 mil clipes diversos. Usando a restauração como base do pipeline, também exploramos aplicações subsequentes, incluindo edição de vídeo e geração de dados de pares de edição de vídeo, demonstrando desempenho competitivo e potencial prático significativo. Experimentos extensivos demonstram o desempenho superior do VideoPainter tanto na restauração de vídeos de qualquer duração quanto na edição, em oito métricas-chave, incluindo qualidade de vídeo, preservação de regiões mascaradas e coerência textual.

English

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model's learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter's superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

VideoPainter: Inpaintagem e Edição de Vídeos de Qualquer Duração com Controle de Contexto Plug-and-Play

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

Resumo

Summary

Support

Support