DynamicScaler: Бесшовная и масштабируемая генерация видео для панорамных сцен
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
December 15, 2024
Авторы: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI
Аннотация
Растущий спрос на иммерсивные приложения дополненной и виртуальной реальности и пространственный интеллект увеличил потребность в создании видео сцен на высоком уровне и 360{\deg} панорамных видео. Однако большинство моделей видеодиффузии ограничены низким разрешением и соотношением сторон, что ограничивает их применимость к синтезу динамического контента на уровне сцены. В данной работе мы предлагаем DynamicScaler, решающий эти проблемы путем обеспечения пространственно масштабируемого и панорамного синтеза динамических сцен, сохраняющего согласованность по всему панорамному пространству произвольного размера. Конкретно, мы представляем средство Offset Shifting Denoiser, облегчающее эффективное, синхронное и согласованное шумоподавление панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через безшовное вращающееся окно, которое обеспечивает плавные переходы границ и согласованность по всему панорамному пространству, учитывая изменяющиеся разрешения и соотношения сторон. Кроме того, мы используем механизм Global Motion Guidance для обеспечения как верности локальных деталей, так и непрерывности глобального движения. Обширные эксперименты демонстрируют, что наш метод достигает превосходного качества контента и движения в генерации видео на уровне панорамных сцен, предлагая обучение-независимое, эффективное и масштабируемое решение для создания иммерсивных динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.
English
The increasing demand for immersive AR/VR applications and spatial
intelligence has heightened the need to generate high-quality scene-level and
360{\deg} panoramic video. However, most video diffusion models are constrained
by limited resolution and aspect ratio, which restricts their applicability to
scene-level dynamic content synthesis. In this work, we propose the
DynamicScaler, addressing these challenges by enabling spatially scalable and
panoramic dynamic scene synthesis that preserves coherence across panoramic
scenes of arbitrary size. Specifically, we introduce a Offset Shifting
Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic
dynamic scenes via a diffusion model with fixed resolution through a seamless
rotating Window, which ensures seamless boundary transitions and consistency
across the entire panoramic space, accommodating varying resolutions and aspect
ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure
both local detail fidelity and global motion continuity. Extensive experiments
demonstrate our method achieves superior content and motion quality in
panoramic scene-level video generation, offering a training-free, efficient,
and scalable solution for immersive dynamic scene creation with constant VRAM
consumption regardless of the output video resolution. Our project page is
available at https://dynamic-scaler.pages.dev/.Summary
AI-Generated Summary