ChatPaper.aiChatPaper

DynamicScaler : Génération Vidéo Transparente et Évolutive pour les Scènes Panoramiques

DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

December 15, 2024
Auteurs: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI

Résumé

La demande croissante d'applications immersives de RA/RV et d'intelligence spatiale a renforcé la nécessité de générer des vidéos panoramiques de haute qualité à 360 degrés au niveau de la scène. Cependant, la plupart des modèles de diffusion vidéo sont limités en résolution et en ratio d'aspect, ce qui restreint leur applicabilité à la synthèse de contenu dynamique au niveau de la scène. Dans ce travail, nous proposons le DynamicScaler, qui répond à ces défis en permettant une synthèse de scène dynamique spatialement évolutive et panoramique qui préserve la cohérence à travers des scènes panoramiques de taille arbitraire. Plus précisément, nous introduisons un Débruiteur à Décalage d'Offset, facilitant un débruitage efficace, synchrone et cohérent des scènes dynamiques panoramiques via un modèle de diffusion avec résolution fixe à travers une Fenêtre rotative sans couture, assurant des transitions de frontières sans heurt et une cohérence sur l'ensemble de l'espace panoramique, en tenant compte des résolutions et ratios d'aspect variables. De plus, nous utilisons un mécanisme de Guidage de Mouvement Global pour garantir à la fois la fidélité des détails locaux et la continuité du mouvement global. Des expériences approfondies démontrent que notre méthode atteint une qualité de contenu et de mouvement supérieure dans la génération de vidéos panoramiques au niveau de la scène, offrant une solution sans entraînement, efficace et évolutive pour la création de scènes dynamiques immersives avec une consommation constante de VRAM indépendamment de la résolution de la vidéo de sortie. Notre page de projet est disponible sur https://dynamic-scaler.pages.dev/.
English
The increasing demand for immersive AR/VR applications and spatial intelligence has heightened the need to generate high-quality scene-level and 360{\deg} panoramic video. However, most video diffusion models are constrained by limited resolution and aspect ratio, which restricts their applicability to scene-level dynamic content synthesis. In this work, we propose the DynamicScaler, addressing these challenges by enabling spatially scalable and panoramic dynamic scene synthesis that preserves coherence across panoramic scenes of arbitrary size. Specifically, we introduce a Offset Shifting Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic dynamic scenes via a diffusion model with fixed resolution through a seamless rotating Window, which ensures seamless boundary transitions and consistency across the entire panoramic space, accommodating varying resolutions and aspect ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure both local detail fidelity and global motion continuity. Extensive experiments demonstrate our method achieves superior content and motion quality in panoramic scene-level video generation, offering a training-free, efficient, and scalable solution for immersive dynamic scene creation with constant VRAM consumption regardless of the output video resolution. Our project page is available at https://dynamic-scaler.pages.dev/.

Summary

AI-Generated Summary

PDF72December 17, 2024