DynamicScaler: Geração de Vídeo Contínua e Escalável para Cenas Panorâmicas
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
December 15, 2024
Autores: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI
Resumo
A crescente demanda por aplicações imersivas de RA/RV e inteligência espacial tem aumentado a necessidade de gerar vídeos panorâmicos de alta qualidade em nível de cena e 360 graus. No entanto, a maioria dos modelos de difusão de vídeo são limitados pela resolução e proporção de aspecto, o que restringe sua aplicabilidade à síntese de conteúdo dinâmico em nível de cena. Neste trabalho, propomos o DynamicScaler, que aborda esses desafios ao permitir a síntese de cenas dinâmicas espacialmente escaláveis e panorâmicas que preservam a coerência em cenas panorâmicas de tamanho arbitrário. Especificamente, introduzimos um Denoiser de Deslocamento de Offset, facilitando a denoização eficiente, síncrona e coerente de cenas dinâmicas panorâmicas por meio de um modelo de difusão com resolução fixa por meio de uma Janela rotativa contínua, que garante transições de fronteira contínuas e consistência em todo o espaço panorâmico, acomodando diferentes resoluções e proporções de aspecto. Além disso, empregamos um mecanismo de Orientação de Movimento Global para garantir tanto a fidelidade de detalhes locais quanto a continuidade de movimento global. Experimentos extensivos demonstram que nosso método alcança qualidade superior de conteúdo e movimento na geração de vídeos em nível de cena panorâmica, oferecendo uma solução eficiente, escalável e sem necessidade de treinamento para a criação imersiva de cenas dinâmicas com consumo constante de VRAM, independentemente da resolução do vídeo de saída. Nossa página do projeto está disponível em https://dynamic-scaler.pages.dev/.
English
The increasing demand for immersive AR/VR applications and spatial
intelligence has heightened the need to generate high-quality scene-level and
360{\deg} panoramic video. However, most video diffusion models are constrained
by limited resolution and aspect ratio, which restricts their applicability to
scene-level dynamic content synthesis. In this work, we propose the
DynamicScaler, addressing these challenges by enabling spatially scalable and
panoramic dynamic scene synthesis that preserves coherence across panoramic
scenes of arbitrary size. Specifically, we introduce a Offset Shifting
Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic
dynamic scenes via a diffusion model with fixed resolution through a seamless
rotating Window, which ensures seamless boundary transitions and consistency
across the entire panoramic space, accommodating varying resolutions and aspect
ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure
both local detail fidelity and global motion continuity. Extensive experiments
demonstrate our method achieves superior content and motion quality in
panoramic scene-level video generation, offering a training-free, efficient,
and scalable solution for immersive dynamic scene creation with constant VRAM
consumption regardless of the output video resolution. Our project page is
available at https://dynamic-scaler.pages.dev/.Summary
AI-Generated Summary