SphereDiff: Беспараметрическая генерация панорамных изображений и видео с полным обзором через сферическое латентное представление
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
April 19, 2025
Авторы: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI
Аннотация
Растущий спрос на приложения дополненной и виртуальной реальности (AR/VR) подчеркивает необходимость в высококачественном 360-градусном панорамном контенте. Однако создание таких изображений и видео остается сложной задачей из-за значительных искажений, вносимых эквидистантной проекцией (ERP). Существующие подходы либо дообучают предварительно обученные диффузионные модели на ограниченных наборах данных ERP, либо используют методы без дообучения, которые все равно опираются на латентные представления ERP, что приводит к разрывам вблизи полюсов. В данной работе мы представляем SphereDiff — новый подход для создания бесшовных 360-градусных панорамных изображений и видео с использованием современных диффузионных моделей без дополнительной дообучения. Мы определяем сферическое латентное представление, которое обеспечивает равномерное распределение по всем направлениям, устраняя искажения, присущие ERP. Мы расширяем MultiDiffusion на сферическое латентное пространство и предлагаем метод сферической латентной выборки, позволяющий напрямую использовать предварительно обученные диффузионные модели. Кроме того, мы вводим взвешенное усреднение с учетом искажений для дальнейшего улучшения качества генерации в процессе проекции. Наш метод превосходит существующие подходы в создании 360-градусного панорамного контента, сохраняя высокую точность, что делает его надежным решением для иммерсивных AR/VR-приложений. Код доступен по ссылке: https://github.com/pmh9960/SphereDiff.
English
The increasing demand for AR/VR applications has highlighted the need for
high-quality 360-degree panoramic content. However, generating high-quality
360-degree panoramic images and videos remains a challenging task due to the
severe distortions introduced by equirectangular projection (ERP). Existing
approaches either fine-tune pretrained diffusion models on limited ERP datasets
or attempt tuning-free methods that still rely on ERP latent representations,
leading to discontinuities near the poles. In this paper, we introduce
SphereDiff, a novel approach for seamless 360-degree panoramic image and video
generation using state-of-the-art diffusion models without additional tuning.
We define a spherical latent representation that ensures uniform distribution
across all perspectives, mitigating the distortions inherent in ERP. We extend
MultiDiffusion to spherical latent space and propose a spherical latent
sampling method to enable direct use of pretrained diffusion models. Moreover,
we introduce distortion-aware weighted averaging to further improve the
generation quality in the projection process. Our method outperforms existing
approaches in generating 360-degree panoramic content while maintaining high
fidelity, making it a robust solution for immersive AR/VR applications. The
code is available here. https://github.com/pmh9960/SphereDiffSummary
AI-Generated Summary