SphereDiff: Einstellungsfreie omnidirektionale Panoramabild- und Videoerzeugung durch sphärische latente Darstellung
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
April 19, 2025
Autoren: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI
Zusammenfassung
Die zunehmende Nachfrage nach AR/VR-Anwendungen hat den Bedarf an hochwertigen 360-Grad-Panoramainhalten deutlich gemacht. Die Erzeugung hochwertiger 360-Grad-Panoramabilder und -videos bleibt jedoch aufgrund der starken Verzerrungen, die durch die äquidistante Projektion (ERP) verursacht werden, eine herausfordernde Aufgabe. Bestehende Ansätze verfeinern entweder vortrainierte Diffusionsmodelle auf begrenzten ERP-Datensätzen oder versuchen tuningfreie Methoden, die dennoch auf ERP-Latentdarstellungen angewiesen sind, was zu Diskontinuitäten in der Nähe der Pole führt. In diesem Artikel stellen wir SphereDiff vor, einen neuartigen Ansatz zur nahtlosen Erzeugung von 360-Grad-Panoramabildern und -videos mithilfe modernster Diffusionsmodelle ohne zusätzliche Anpassung. Wir definieren eine sphärische Latentdarstellung, die eine gleichmäßige Verteilung über alle Perspektiven gewährleistet und so die inhärenten Verzerrungen der ERP mildert. Wir erweitern MultiDiffusion auf den sphärischen Latentraum und schlagen eine sphärische Latentabtastmethode vor, um den direkten Einsatz vortrainierter Diffusionsmodelle zu ermöglichen. Darüber hinaus führen wir eine verzerrungsbewusste gewichtete Mittelung ein, um die Generierungsqualität im Projektionsprozess weiter zu verbessern. Unser Ansatz übertrifft bestehende Methoden bei der Erzeugung von 360-Grad-Panoramainhalten bei gleichzeitiger Beibehaltung hoher Detailtreue, was ihn zu einer robusten Lösung für immersive AR/VR-Anwendungen macht. Der Code ist hier verfügbar: https://github.com/pmh9960/SphereDiff.
English
The increasing demand for AR/VR applications has highlighted the need for
high-quality 360-degree panoramic content. However, generating high-quality
360-degree panoramic images and videos remains a challenging task due to the
severe distortions introduced by equirectangular projection (ERP). Existing
approaches either fine-tune pretrained diffusion models on limited ERP datasets
or attempt tuning-free methods that still rely on ERP latent representations,
leading to discontinuities near the poles. In this paper, we introduce
SphereDiff, a novel approach for seamless 360-degree panoramic image and video
generation using state-of-the-art diffusion models without additional tuning.
We define a spherical latent representation that ensures uniform distribution
across all perspectives, mitigating the distortions inherent in ERP. We extend
MultiDiffusion to spherical latent space and propose a spherical latent
sampling method to enable direct use of pretrained diffusion models. Moreover,
we introduce distortion-aware weighted averaging to further improve the
generation quality in the projection process. Our method outperforms existing
approaches in generating 360-degree panoramic content while maintaining high
fidelity, making it a robust solution for immersive AR/VR applications. The
code is available here. https://github.com/pmh9960/SphereDiffSummary
AI-Generated Summary