ChatPaper.aiChatPaper

DynamicScaler: Naadloze en Schaalbare Video Generatie voor Panoramische Scènes

DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

December 15, 2024
Auteurs: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI

Samenvatting

De toenemende vraag naar meeslepende AR/VR-toepassingen en ruimtelijke intelligentie heeft de noodzaak verhoogd om hoogwaardige scène-niveau en 360-graden panoramische video's te genereren. Echter, de meeste video diffusiemodellen worden beperkt door een beperkte resolutie en beeldverhouding, wat hun toepasbaarheid beperkt tot de synthese van dynamische inhoud op scène-niveau. In dit werk stellen we de DynamicScaler voor, die deze uitdagingen aanpakt door ruimtelijk schaalbare en panoramische dynamische scène synthese mogelijk te maken die coherentie behoudt over panoramische scènes van willekeurige grootte. Specifiek introduceren we een Offset Verschuivende Denoiser, die efficiënte, synchrone en coherente denoising van panoramische dynamische scènes mogelijk maakt via een diffusiemodel met vaste resolutie door middel van een naadloos roterend Venster, dat zorgt voor naadloze overgangen van grenzen en consistentie over de gehele panoramische ruimte, waarbij verschillende resoluties en beeldverhoudingen worden ondersteund. Daarnaast maken we gebruik van een mechanisme voor Globale Bewegingsbegeleiding om zowel de lokale detailgetrouwheid als de continuïteit van de globale beweging te waarborgen. Uitgebreide experimenten tonen aan dat onze methode superieure inhouds- en bewegingskwaliteit bereikt in de generatie van panoramische scène-niveau video's, waarbij een trainingvrije, efficiënte en schaalbare oplossing wordt geboden voor het creëren van meeslepende dynamische scènes met constante VRAM-consumptie ongeacht de uitvoerresolutie van de video. Onze projectpagina is beschikbaar op https://dynamic-scaler.pages.dev/.
English
The increasing demand for immersive AR/VR applications and spatial intelligence has heightened the need to generate high-quality scene-level and 360{\deg} panoramic video. However, most video diffusion models are constrained by limited resolution and aspect ratio, which restricts their applicability to scene-level dynamic content synthesis. In this work, we propose the DynamicScaler, addressing these challenges by enabling spatially scalable and panoramic dynamic scene synthesis that preserves coherence across panoramic scenes of arbitrary size. Specifically, we introduce a Offset Shifting Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic dynamic scenes via a diffusion model with fixed resolution through a seamless rotating Window, which ensures seamless boundary transitions and consistency across the entire panoramic space, accommodating varying resolutions and aspect ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure both local detail fidelity and global motion continuity. Extensive experiments demonstrate our method achieves superior content and motion quality in panoramic scene-level video generation, offering a training-free, efficient, and scalable solution for immersive dynamic scene creation with constant VRAM consumption regardless of the output video resolution. Our project page is available at https://dynamic-scaler.pages.dev/.
PDF72December 17, 2024