Be-Your-Outpainter: Padroneggiare il Video Outpainting attraverso l'Adattamento Specifico all'Input
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation
March 20, 2024
Autori: Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI
Abstract
Il video outpainting è un compito impegnativo che mira a generare contenuti video al di fuori del viewport del video di input, mantenendo al contempo la coerenza inter-fotogramma e intra-fotogramma. I metodi esistenti risultano carenti sia in termini di qualità di generazione che di flessibilità. Introduciamo MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), una pipeline basata su modelli di diffusione che sfrutta sia i modelli intrinseci specifici dei dati del video sorgente, sia il prior generativo di immagini/video per un outpainting efficace. MOTIA si compone di due fasi principali: adattamento specifico all'input e outpainting consapevole dei modelli. La fase di adattamento specifico all'input prevede l'apprendimento efficiente ed efficace di pseudo outpainting sul video sorgente a singolo scatto. Questo processo incoraggia il modello a identificare e apprendere i modelli all'interno del video sorgente, oltre a colmare il divario tra i processi generativi standard e l'outpainting. La fase successiva, l'outpainting consapevole dei modelli, è dedicata alla generalizzazione di questi modelli appresi per generare risultati di outpainting. Sono proposte ulteriori strategie, tra cui l'inserimento spaziale consapevole e il viaggio del rumore, per sfruttare al meglio il prior generativo del modello di diffusione e i modelli video acquisiti dai video sorgenti. Valutazioni estensive evidenziano la superiorità di MOTIA, superando i metodi all'avanguardia esistenti in benchmark ampiamente riconosciuti. È importante sottolineare che questi progressi sono stati raggiunti senza necessitare di un'ampia ottimizzazione specifica per il compito.
English
Video outpainting is a challenging task, aiming at generating video content
outside the viewport of the input video while maintaining inter-frame and
intra-frame consistency. Existing methods fall short in either generation
quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through
Input-Specific Adaptation, a diffusion-based pipeline that leverages both the
intrinsic data-specific patterns of the source video and the image/video
generative prior for effective outpainting. MOTIA comprises two main phases:
input-specific adaptation and pattern-aware outpainting. The input-specific
adaptation phase involves conducting efficient and effective pseudo outpainting
learning on the single-shot source video. This process encourages the model to
identify and learn patterns within the source video, as well as bridging the
gap between standard generative processes and outpainting. The subsequent
phase, pattern-aware outpainting, is dedicated to the generalization of these
learned patterns to generate outpainting outcomes. Additional strategies
including spatial-aware insertion and noise travel are proposed to better
leverage the diffusion model's generative prior and the acquired video patterns
from source videos. Extensive evaluations underscore MOTIA's superiority,
outperforming existing state-of-the-art methods in widely recognized
benchmarks. Notably, these advancements are achieved without necessitating
extensive, task-specific tuning.