Be-Your-Outpainter: Padroneggiare il Video Outpainting attraverso l'Adattamento Specifico all'Input

Abstract

Il video outpainting è un compito impegnativo che mira a generare contenuti video al di fuori del viewport del video di input, mantenendo al contempo la coerenza inter-fotogramma e intra-fotogramma. I metodi esistenti risultano carenti sia in termini di qualità di generazione che di flessibilità. Introduciamo MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), una pipeline basata su modelli di diffusione che sfrutta sia i modelli intrinseci specifici dei dati del video sorgente, sia il prior generativo di immagini/video per un outpainting efficace. MOTIA si compone di due fasi principali: adattamento specifico all'input e outpainting consapevole dei modelli. La fase di adattamento specifico all'input prevede l'apprendimento efficiente ed efficace di pseudo outpainting sul video sorgente a singolo scatto. Questo processo incoraggia il modello a identificare e apprendere i modelli all'interno del video sorgente, oltre a colmare il divario tra i processi generativi standard e l'outpainting. La fase successiva, l'outpainting consapevole dei modelli, è dedicata alla generalizzazione di questi modelli appresi per generare risultati di outpainting. Sono proposte ulteriori strategie, tra cui l'inserimento spaziale consapevole e il viaggio del rumore, per sfruttare al meglio il prior generativo del modello di diffusione e i modelli video acquisiti dai video sorgenti. Valutazioni estensive evidenziano la superiorità di MOTIA, superando i metodi all'avanguardia esistenti in benchmark ampiamente riconosciuti. È importante sottolineare che questi progressi sono stati raggiunti senza necessitare di un'ampia ottimizzazione specifica per il compito.

English

Video outpainting is a challenging task, aiming at generating video content outside the viewport of the input video while maintaining inter-frame and intra-frame consistency. Existing methods fall short in either generation quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through Input-Specific Adaptation, a diffusion-based pipeline that leverages both the intrinsic data-specific patterns of the source video and the image/video generative prior for effective outpainting. MOTIA comprises two main phases: input-specific adaptation and pattern-aware outpainting. The input-specific adaptation phase involves conducting efficient and effective pseudo outpainting learning on the single-shot source video. This process encourages the model to identify and learn patterns within the source video, as well as bridging the gap between standard generative processes and outpainting. The subsequent phase, pattern-aware outpainting, is dedicated to the generalization of these learned patterns to generate outpainting outcomes. Additional strategies including spatial-aware insertion and noise travel are proposed to better leverage the diffusion model's generative prior and the acquired video patterns from source videos. Extensive evaluations underscore MOTIA's superiority, outperforming existing state-of-the-art methods in widely recognized benchmarks. Notably, these advancements are achieved without necessitating extensive, task-specific tuning.

Be-Your-Outpainter: Padroneggiare il Video Outpainting attraverso l'Adattamento Specifico all'Input

Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

Abstract

Support