Be-Your-Outpainter: 入力特化型適応によるビデオアウトペインティングの習得
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation
March 20, 2024
著者: Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI
要旨
ビデオアウトペインティングは、入力ビデオのビューポート外のコンテンツを生成しつつ、フレーム間およびフレーム内の一貫性を維持することを目指す挑戦的なタスクです。既存の手法は、生成品質または柔軟性のいずれかにおいて不十分です。本論文では、MOTIA(Mastering Video Outpainting Through Input-Specific Adaptation)を紹介します。これは、拡散モデルに基づくパイプラインであり、ソースビデオの固有のデータ固有パターンと画像/ビデオ生成の事前知識を活用して効果的なアウトペインティングを実現します。MOTIAは、入力固有の適応とパターン認識型アウトペインティングの2つの主要なフェーズで構成されています。入力固有の適応フェーズでは、シングルショットのソースビデオに対して効率的かつ効果的な疑似アウトペインティング学習を行います。このプロセスにより、モデルはソースビデオ内のパターンを識別し学習するとともに、標準的な生成プロセスとアウトペインティングの間のギャップを埋めます。続くパターン認識型アウトペインティングフェーズでは、これらの学習済みパターンを一般化してアウトペインティング結果を生成します。さらに、拡散モデルの生成事前知識とソースビデオから取得したビデオパターンをより効果的に活用するために、空間認識型挿入やノイズトラベルなどの追加戦略を提案します。広く認知されたベンチマークにおいて、MOTIAは既存の最先端手法を上回る優位性を示し、その評価結果が裏付けられています。特に、これらの進展は、大規模なタスク固有のチューニングを必要とせずに達成されています。
English
Video outpainting is a challenging task, aiming at generating video content
outside the viewport of the input video while maintaining inter-frame and
intra-frame consistency. Existing methods fall short in either generation
quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through
Input-Specific Adaptation, a diffusion-based pipeline that leverages both the
intrinsic data-specific patterns of the source video and the image/video
generative prior for effective outpainting. MOTIA comprises two main phases:
input-specific adaptation and pattern-aware outpainting. The input-specific
adaptation phase involves conducting efficient and effective pseudo outpainting
learning on the single-shot source video. This process encourages the model to
identify and learn patterns within the source video, as well as bridging the
gap between standard generative processes and outpainting. The subsequent
phase, pattern-aware outpainting, is dedicated to the generalization of these
learned patterns to generate outpainting outcomes. Additional strategies
including spatial-aware insertion and noise travel are proposed to better
leverage the diffusion model's generative prior and the acquired video patterns
from source videos. Extensive evaluations underscore MOTIA's superiority,
outperforming existing state-of-the-art methods in widely recognized
benchmarks. Notably, these advancements are achieved without necessitating
extensive, task-specific tuning.Summary
AI-Generated Summary