Be-Your-Outpainter: 입력 특화적 적응을 통한 비디오 아웃페인팅 마스터하기
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation
March 20, 2024
저자: Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI
초록
비디오 아웃페인팅은 입력 비디오의 뷰포트 외부에 비디오 콘텐츠를 생성하면서 프레임 간 및 프레임 내 일관성을 유지하는 것을 목표로 하는 도전적인 작업입니다. 기존 방법들은 생성 품질이나 유연성 측면에서 부족함을 보였습니다. 우리는 MOTIA(Mastering Video Outpainting Through Input-Specific Adaptation)를 소개합니다. 이는 확산 기반 파이프라인으로, 소스 비디오의 고유한 데이터 특정 패턴과 이미지/비디오 생성 사전 지식을 활용하여 효과적인 아웃페인팅을 수행합니다. MOTIA는 두 가지 주요 단계로 구성됩니다: 입력 특정 적응 단계와 패턴 인식 아웃페인팅 단계. 입력 특정 적응 단계는 단일 샷 소스 비디오에 대해 효율적이고 효과적인 가짜 아웃페인팅 학습을 수행합니다. 이 과정은 모델이 소스 비디오 내의 패턴을 식별하고 학습하도록 유도하며, 표준 생성 과정과 아웃페인팅 간의 격차를 줄이는 데 기여합니다. 이후의 패턴 인식 아웃페인팅 단계는 이러한 학습된 패턴을 일반화하여 아웃페인팅 결과를 생성하는 데 전념합니다. 확산 모델의 생성 사전 지식과 소스 비디오에서 획득한 비디오 패턴을 더 잘 활용하기 위해 공간 인식 삽입 및 노이즈 이동과 같은 추가 전략이 제안됩니다. 광범위한 평가를 통해 MOTIA의 우수성이 입증되었으며, 널리 인정받는 벤치마크에서 기존의 최신 방법들을 능가하는 성과를 보였습니다. 특히, 이러한 발전은 과도한 작업 특정 튜닝 없이도 달성되었습니다.
English
Video outpainting is a challenging task, aiming at generating video content
outside the viewport of the input video while maintaining inter-frame and
intra-frame consistency. Existing methods fall short in either generation
quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through
Input-Specific Adaptation, a diffusion-based pipeline that leverages both the
intrinsic data-specific patterns of the source video and the image/video
generative prior for effective outpainting. MOTIA comprises two main phases:
input-specific adaptation and pattern-aware outpainting. The input-specific
adaptation phase involves conducting efficient and effective pseudo outpainting
learning on the single-shot source video. This process encourages the model to
identify and learn patterns within the source video, as well as bridging the
gap between standard generative processes and outpainting. The subsequent
phase, pattern-aware outpainting, is dedicated to the generalization of these
learned patterns to generate outpainting outcomes. Additional strategies
including spatial-aware insertion and noise travel are proposed to better
leverage the diffusion model's generative prior and the acquired video patterns
from source videos. Extensive evaluations underscore MOTIA's superiority,
outperforming existing state-of-the-art methods in widely recognized
benchmarks. Notably, these advancements are achieved without necessitating
extensive, task-specific tuning.Summary
AI-Generated Summary