ChatPaper.aiChatPaper

Be-Your-Outpainter : Maîtriser l'extrapolation vidéo grâce à une adaptation spécifique à l'entrée

Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

March 20, 2024
Auteurs: Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI

Résumé

L'extrapolation vidéo est une tâche complexe qui vise à générer du contenu vidéo en dehors du cadre de la vidéo d'entrée tout en maintenant une cohérence inter-image et intra-image. Les méthodes existantes présentent des lacunes soit en termes de qualité de génération, soit en termes de flexibilité. Nous présentons MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), un pipeline basé sur la diffusion qui exploite à la fois les motifs spécifiques aux données de la vidéo source et les connaissances préalables en génération d'images/vidéos pour une extrapolation efficace. MOTIA se compose de deux phases principales : l'adaptation spécifique à l'entrée et l'extrapolation consciente des motifs. La phase d'adaptation spécifique à l'entrée consiste à effectuer un apprentissage efficace et pertinent de pseudo-extrapolation sur la vidéo source en un seul plan. Ce processus encourage le modèle à identifier et à apprendre les motifs présents dans la vidéo source, tout en comblant l'écart entre les processus génératifs standards et l'extrapolation. La phase suivante, l'extrapolation consciente des motifs, est dédiée à la généralisation de ces motifs appris pour produire des résultats d'extrapolation. Des stratégies supplémentaires, incluant l'insertion spatialement consciente et le voyage du bruit, sont proposées pour mieux exploiter les connaissances génératives du modèle de diffusion et les motifs vidéo acquis à partir des vidéos sources. Des évaluations approfondies mettent en évidence la supériorité de MOTIA, surpassant les méthodes de pointe existantes sur des benchmarks largement reconnus. Il est à noter que ces avancées sont réalisées sans nécessiter un réglage extensif spécifique à la tâche.
English
Video outpainting is a challenging task, aiming at generating video content outside the viewport of the input video while maintaining inter-frame and intra-frame consistency. Existing methods fall short in either generation quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through Input-Specific Adaptation, a diffusion-based pipeline that leverages both the intrinsic data-specific patterns of the source video and the image/video generative prior for effective outpainting. MOTIA comprises two main phases: input-specific adaptation and pattern-aware outpainting. The input-specific adaptation phase involves conducting efficient and effective pseudo outpainting learning on the single-shot source video. This process encourages the model to identify and learn patterns within the source video, as well as bridging the gap between standard generative processes and outpainting. The subsequent phase, pattern-aware outpainting, is dedicated to the generalization of these learned patterns to generate outpainting outcomes. Additional strategies including spatial-aware insertion and noise travel are proposed to better leverage the diffusion model's generative prior and the acquired video patterns from source videos. Extensive evaluations underscore MOTIA's superiority, outperforming existing state-of-the-art methods in widely recognized benchmarks. Notably, these advancements are achieved without necessitating extensive, task-specific tuning.

Summary

AI-Generated Summary

PDF111December 15, 2024