Follow-Your-Canvas: Hochauflösendes Video-Outpainting mit umfangreicher Inhaltsgenerierung
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
September 2, 2024
Autoren: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI
Zusammenfassung
Dieses Paper untersucht die Ausbesserung von Videos mit höherer Auflösung durch umfangreiche Inhaltsgenerierung. Wir weisen auf häufige Probleme hin, mit denen bestehende Methoden konfrontiert sind, wenn sie versuchen, Videos weitgehend auszubessern: die Generierung von Inhalten von geringer Qualität und die Beschränkungen durch den GPU-Speicher. Um diesen Herausforderungen zu begegnen, schlagen wir eine auf Diffusion basierende Methode namens Follow-Your-Canvas vor. Sie baut auf zwei Kernkonzepten auf. Erstens verteilen wir die Aufgabe über räumliche Fenster und verschmelzen sie nahtlos anstatt der gängigen Praxis des "single-shot" Ausbesserung. Dies ermöglicht es uns, Videos jeder Größe und Auflösung auszubessern, ohne durch den GPU-Speicher begrenzt zu sein. Zweitens werden das Quellvideo und seine relative Positionierungsbeziehung in den Generierungsprozess jedes Fensters eingebracht. Dies führt dazu, dass das generierte räumliche Layout innerhalb jedes Fensters mit dem Quellvideo harmoniert. Die Kombination dieser beiden Konzepte ermöglicht es uns, Videos mit höherer Auflösung und reichhaltigen Inhalten zu generieren, während die räumliche und zeitliche Konsistenz erhalten bleibt. Follow-Your-Canvas zeichnet sich besonders bei der Ausbesserung von Videos im großen Maßstab aus, z. B. von 512x512 auf 1152x2048 (9x), und liefert dabei qualitativ hochwertige und ästhetisch ansprechende Ergebnisse. Es erzielt die besten quantitativen Ergebnisse bei verschiedenen Auflösungen und Skalierungen. Der Code ist auf https://github.com/mayuelala/FollowYourCanvas verfügbar.
English
This paper explores higher-resolution video outpainting with extensive
content generation. We point out common issues faced by existing methods when
attempting to largely outpaint videos: the generation of low-quality content
and limitations imposed by GPU memory. To address these challenges, we propose
a diffusion-based method called Follow-Your-Canvas. It builds upon two
core designs. First, instead of employing the common practice of "single-shot"
outpainting, we distribute the task across spatial windows and seamlessly merge
them. It allows us to outpaint videos of any size and resolution without being
constrained by GPU memory. Second, the source video and its relative positional
relation are injected into the generation process of each window. It makes the
generated spatial layout within each window harmonize with the source video.
Coupling with these two designs enables us to generate higher-resolution
outpainting videos with rich content while keeping spatial and temporal
consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g.,
from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically
pleasing results. It achieves the best quantitative results across various
resolution and scale setups. The code is released on
https://github.com/mayuelala/FollowYourCanvasSummary
AI-Generated Summary