DynamicScaler: Nahtlose und skalierbare Videogenerierung für panoramische Szenen
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
December 15, 2024
Autoren: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI
Zusammenfassung
Die steigende Nachfrage nach immersiven AR/VR-Anwendungen und räumlicher Intelligenz hat die Notwendigkeit erhöht, hochwertige Szenen- und 360{\deg}-Panoramavideos zu generieren. Die meisten Videodiffusionsmodelle sind jedoch durch begrenzte Auflösung und Seitenverhältnis eingeschränkt, was ihre Anwendbarkeit auf die Synthese von dynamischen Inhalten auf Szenenebene einschränkt. In dieser Arbeit schlagen wir den DynamicScaler vor, der diese Herausforderungen durch die Ermöglichung von räumlich skalierbarer und panoramischer dynamischer Szenensynthese angeht, die Kohärenz über Panoramaszenen beliebiger Größe hinweg bewahrt. Konkret führen wir einen Offset Shifting Denoiser ein, der effizientes, synchrones und kohärentes Denoising von panoramischen dynamischen Szenen über ein Diffusionsmodell mit fester Auflösung durch ein nahtloses rotierendes Fenster ermöglicht, das nahtlose Übergänge an den Grenzen und Konsistenz über den gesamten panoramischen Raum sicherstellt, um unterschiedliche Auflösungen und Seitenverhältnisse zu berücksichtigen. Darüber hinaus verwenden wir einen Mechanismus für globale Bewegungssteuerung, um sowohl die lokale Detailtreue als auch die globale Bewegungskontinuität sicherzustellen. Umfangreiche Experimente zeigen, dass unsere Methode eine überlegene Inhalts- und Bewegungsqualität bei der Erzeugung von Panoramavideos auf Szenenebene bietet und eine trainingsfreie, effiziente und skalierbare Lösung für die immersive Erstellung dynamischer Szenen mit konstantem VRAM-Verbrauch unabhängig von der Ausgabevideoauflösung darstellt. Unsere Projektseite ist unter https://dynamic-scaler.pages.dev/ verfügbar.
English
The increasing demand for immersive AR/VR applications and spatial
intelligence has heightened the need to generate high-quality scene-level and
360{\deg} panoramic video. However, most video diffusion models are constrained
by limited resolution and aspect ratio, which restricts their applicability to
scene-level dynamic content synthesis. In this work, we propose the
DynamicScaler, addressing these challenges by enabling spatially scalable and
panoramic dynamic scene synthesis that preserves coherence across panoramic
scenes of arbitrary size. Specifically, we introduce a Offset Shifting
Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic
dynamic scenes via a diffusion model with fixed resolution through a seamless
rotating Window, which ensures seamless boundary transitions and consistency
across the entire panoramic space, accommodating varying resolutions and aspect
ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure
both local detail fidelity and global motion continuity. Extensive experiments
demonstrate our method achieves superior content and motion quality in
panoramic scene-level video generation, offering a training-free, efficient,
and scalable solution for immersive dynamic scene creation with constant VRAM
consumption regardless of the output video resolution. Our project page is
available at https://dynamic-scaler.pages.dev/.Summary
AI-Generated Summary