DynamicScaler: Generación de Video Fluida y Escalable para Escenas Panorámicas
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
December 15, 2024
Autores: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI
Resumen
La creciente demanda de aplicaciones inmersivas de RA/RV e inteligencia espacial ha aumentado la necesidad de generar videos panorámicos de alta calidad a nivel de escena y 360 grados. Sin embargo, la mayoría de los modelos de difusión de video se ven limitados por la resolución y la relación de aspecto, lo que restringe su aplicabilidad a la síntesis de contenido dinámico a nivel de escena. En este trabajo, proponemos el DynamicScaler, abordando estos desafíos al permitir la síntesis de escenas dinámicas espacialmente escalables y panorámicas que preservan la coherencia a lo largo de escenas panorámicas de tamaño arbitrario. Específicamente, presentamos un Denoiser de Desplazamiento de Offset, facilitando el denoising eficiente, sincrónico y coherente de escenas dinámicas panorámicas a través de un modelo de difusión con resolución fija mediante una Ventana giratoria sin fisuras, que garantiza transiciones de límites sin problemas y consistencia en todo el espacio panorámico, adaptándose a diferentes resoluciones y relaciones de aspecto. Además, empleamos un mecanismo de Guía de Movimiento Global para asegurar tanto la fidelidad de los detalles locales como la continuidad del movimiento global. Experimentos extensos demuestran que nuestro método logra una calidad de contenido y movimiento superior en la generación de videos a nivel de escena panorámica, ofreciendo una solución eficiente, escalable y sin necesidad de entrenamiento para la creación de escenas dinámicas inmersivas con un consumo constante de VRAM independientemente de la resolución del video de salida. Nuestra página del proyecto está disponible en https://dynamic-scaler.pages.dev/.
English
The increasing demand for immersive AR/VR applications and spatial
intelligence has heightened the need to generate high-quality scene-level and
360{\deg} panoramic video. However, most video diffusion models are constrained
by limited resolution and aspect ratio, which restricts their applicability to
scene-level dynamic content synthesis. In this work, we propose the
DynamicScaler, addressing these challenges by enabling spatially scalable and
panoramic dynamic scene synthesis that preserves coherence across panoramic
scenes of arbitrary size. Specifically, we introduce a Offset Shifting
Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic
dynamic scenes via a diffusion model with fixed resolution through a seamless
rotating Window, which ensures seamless boundary transitions and consistency
across the entire panoramic space, accommodating varying resolutions and aspect
ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure
both local detail fidelity and global motion continuity. Extensive experiments
demonstrate our method achieves superior content and motion quality in
panoramic scene-level video generation, offering a training-free, efficient,
and scalable solution for immersive dynamic scene creation with constant VRAM
consumption regardless of the output video resolution. Our project page is
available at https://dynamic-scaler.pages.dev/.Summary
AI-Generated Summary