VideoPainter: 플러그 앤 플레이 컨텍스트 제어를 통한 임의 길이 비디오 인페인팅 및 편집
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control
March 7, 2025
저자: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu
cs.AI
초록
비디오 인페인팅(video inpainting)은 손상된 비디오 콘텐츠를 복원하는 것을 목표로 하며, 상당한 발전을 이루어 왔습니다. 그러나 이러한 발전에도 불구하고, 기존 방법들은 광학 흐름(optical flow)과 수용 필드(receptive field) 사전 정보를 통해 마스크되지 않은 영역의 픽셀을 전파하거나, 이미지 인페인팅 모델을 시간적으로 확장하는 방식으로 접근함에 있어, 완전히 마스크된 객체를 생성하거나 배경 컨텍스트 보존과 전경 생성이라는 상충되는 목표를 하나의 모델에서 균형 있게 달성하는 데 어려움을 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 새로운 듀얼 스트림(dual-stream) 패러다임인 VideoPainter를 제안합니다. 이는 마스크된 비디오를 처리하고 사전 학습된 비디오 DiT(video DiT)에 백본 인식(backbone-aware) 배경 컨텍스트 단서를 주입하여 의미적으로 일관된 콘텐츠를 플러그 앤 플레이(plug-and-play) 방식으로 생성하는 효율적인 컨텍스트 인코더(6%의 백본 파라미터만 포함)를 통합합니다. 이러한 아키텍처 분리는 모델의 학습 복잡성을 크게 줄이면서도 중요한 배경 컨텍스트의 세밀한 통합을 가능하게 합니다. 또한, 우리는 임의 길이의 비디오 인페인팅을 가능하게 하는 새로운 타겟 영역 ID 리샘플링(target region ID resampling) 기법을 도입하여 실용성을 크게 향상시켰습니다. 더불어, 현재의 비전 이해 모델을 활용한 확장 가능한 데이터셋 파이프라인을 구축하여, 세그멘테이션 기반 인페인팅 학습과 평가를 위한 VPData와 VPBench을 제공하며, 이는 390K 이상의 다양한 클립을 포함한 가장 큰 규모의 비디오 인페인팅 데이터셋 및 벤치마크입니다. 인페인팅을 파이프라인 기반으로 활용하여, 우리는 비디오 편집 및 비디오 편집 쌍 데이터 생성과 같은 다운스트림 애플리케이션을 탐구하며, 경쟁력 있는 성능과 상당한 실용적 잠재력을 입증했습니다. 광범위한 실험을 통해 VideoPainter는 비디오 품질, 마스크 영역 보존, 텍스트 일관성 등 8가지 주요 메트릭에서 임의 길이의 비디오 인페인팅과 편집 모두에서 우수한 성능을 보여줍니다.
English
Video inpainting, which aims to restore corrupted video content, has
experienced substantial progress. Despite these advances, existing methods,
whether propagating unmasked region pixels through optical flow and receptive
field priors, or extending image-inpainting models temporally, face challenges
in generating fully masked objects or balancing the competing objectives of
background context preservation and foreground generation in one model,
respectively. To address these limitations, we propose a novel dual-stream
paradigm VideoPainter that incorporates an efficient context encoder
(comprising only 6% of the backbone parameters) to process masked videos and
inject backbone-aware background contextual cues to any pre-trained video DiT,
producing semantically consistent content in a plug-and-play manner. This
architectural separation significantly reduces the model's learning complexity
while enabling nuanced integration of crucial background context. We also
introduce a novel target region ID resampling technique that enables any-length
video inpainting, greatly enhancing our practical applicability. Additionally,
we establish a scalable dataset pipeline leveraging current vision
understanding models, contributing VPData and VPBench to facilitate
segmentation-based inpainting training and assessment, the largest video
inpainting dataset and benchmark to date with over 390K diverse clips. Using
inpainting as a pipeline basis, we also explore downstream applications
including video editing and video editing pair data generation, demonstrating
competitive performance and significant practical potential. Extensive
experiments demonstrate VideoPainter's superior performance in both any-length
video inpainting and editing, across eight key metrics, including video
quality, mask region preservation, and textual coherence.