SphereDiff : Génération d'images et de vidéos panoramiques omnidirectionnelles sans réglage via une représentation latente sphérique
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
April 19, 2025
Auteurs: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI
Résumé
La demande croissante pour les applications de réalité augmentée (RA) et de réalité virtuelle (RV) a mis en lumière le besoin de contenus panoramiques 360° de haute qualité. Cependant, la génération d'images et de vidéos panoramiques 360° de haute qualité reste une tâche complexe en raison des distorsions importantes introduites par la projection équirectangulaire (ERP). Les approches existantes ajustent soit des modèles de diffusion pré-entraînés sur des ensembles de données ERP limités, soit utilisent des méthodes sans ajustement qui reposent toujours sur des représentations latentes ERP, ce qui entraîne des discontinuités près des pôles. Dans cet article, nous présentons SphereDiff, une nouvelle approche pour la génération fluide d'images et de vidéos panoramiques 360° utilisant des modèles de diffusion de pointe sans ajustement supplémentaire. Nous définissons une représentation latente sphérique qui assure une distribution uniforme sur toutes les perspectives, atténuant ainsi les distorsions inhérentes à l'ERP. Nous étendons MultiDiffusion à l'espace latent sphérique et proposons une méthode d'échantillonnage latent sphérique pour permettre l'utilisation directe de modèles de diffusion pré-entraînés. De plus, nous introduisons une moyenne pondérée prenant en compte les distorsions pour améliorer davantage la qualité de génération lors du processus de projection. Notre méthode surpasse les approches existantes dans la génération de contenus panoramiques 360° tout en maintenant une haute fidélité, en faisant une solution robuste pour les applications immersives de RA/RV. Le code est disponible ici : https://github.com/pmh9960/SphereDiff.
English
The increasing demand for AR/VR applications has highlighted the need for
high-quality 360-degree panoramic content. However, generating high-quality
360-degree panoramic images and videos remains a challenging task due to the
severe distortions introduced by equirectangular projection (ERP). Existing
approaches either fine-tune pretrained diffusion models on limited ERP datasets
or attempt tuning-free methods that still rely on ERP latent representations,
leading to discontinuities near the poles. In this paper, we introduce
SphereDiff, a novel approach for seamless 360-degree panoramic image and video
generation using state-of-the-art diffusion models without additional tuning.
We define a spherical latent representation that ensures uniform distribution
across all perspectives, mitigating the distortions inherent in ERP. We extend
MultiDiffusion to spherical latent space and propose a spherical latent
sampling method to enable direct use of pretrained diffusion models. Moreover,
we introduce distortion-aware weighted averaging to further improve the
generation quality in the projection process. Our method outperforms existing
approaches in generating 360-degree panoramic content while maintaining high
fidelity, making it a robust solution for immersive AR/VR applications. The
code is available here. https://github.com/pmh9960/SphereDiffSummary
AI-Generated Summary