DynamicScaler: Generación de Video Fluida y Escalable para Escenas Panorámicas

Resumen

La creciente demanda de aplicaciones inmersivas de RA/RV e inteligencia espacial ha aumentado la necesidad de generar videos panorámicos de alta calidad a nivel de escena y 360 grados. Sin embargo, la mayoría de los modelos de difusión de video se ven limitados por la resolución y la relación de aspecto, lo que restringe su aplicabilidad a la síntesis de contenido dinámico a nivel de escena. En este trabajo, proponemos el DynamicScaler, abordando estos desafíos al permitir la síntesis de escenas dinámicas espacialmente escalables y panorámicas que preservan la coherencia a lo largo de escenas panorámicas de tamaño arbitrario. Específicamente, presentamos un Denoiser de Desplazamiento de Offset, facilitando el denoising eficiente, sincrónico y coherente de escenas dinámicas panorámicas a través de un modelo de difusión con resolución fija mediante una Ventana giratoria sin fisuras, que garantiza transiciones de límites sin problemas y consistencia en todo el espacio panorámico, adaptándose a diferentes resoluciones y relaciones de aspecto. Además, empleamos un mecanismo de Guía de Movimiento Global para asegurar tanto la fidelidad de los detalles locales como la continuidad del movimiento global. Experimentos extensos demuestran que nuestro método logra una calidad de contenido y movimiento superior en la generación de videos a nivel de escena panorámica, ofreciendo una solución eficiente, escalable y sin necesidad de entrenamiento para la creación de escenas dinámicas inmersivas con un consumo constante de VRAM independientemente de la resolución del video de salida. Nuestra página del proyecto está disponible en https://dynamic-scaler.pages.dev/.

English

The increasing demand for immersive AR/VR applications and spatial intelligence has heightened the need to generate high-quality scene-level and 360{\deg} panoramic video. However, most video diffusion models are constrained by limited resolution and aspect ratio, which restricts their applicability to scene-level dynamic content synthesis. In this work, we propose the DynamicScaler, addressing these challenges by enabling spatially scalable and panoramic dynamic scene synthesis that preserves coherence across panoramic scenes of arbitrary size. Specifically, we introduce a Offset Shifting Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic dynamic scenes via a diffusion model with fixed resolution through a seamless rotating Window, which ensures seamless boundary transitions and consistency across the entire panoramic space, accommodating varying resolutions and aspect ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure both local detail fidelity and global motion continuity. Extensive experiments demonstrate our method achieves superior content and motion quality in panoramic scene-level video generation, offering a training-free, efficient, and scalable solution for immersive dynamic scene creation with constant VRAM consumption regardless of the output video resolution. Our project page is available at https://dynamic-scaler.pages.dev/.

DynamicScaler: Generación de Video Fluida y Escalable para Escenas Panorámicas

DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Resumen

Support