ChatPaper.aiChatPaper

SphereDiff: Einstellungsfreie omnidirektionale Panoramabild- und Videoerzeugung durch sphärische latente Darstellung

SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

April 19, 2025
Autoren: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI

Zusammenfassung

Die zunehmende Nachfrage nach AR/VR-Anwendungen hat den Bedarf an hochwertigen 360-Grad-Panoramainhalten deutlich gemacht. Die Erzeugung hochwertiger 360-Grad-Panoramabilder und -videos bleibt jedoch aufgrund der starken Verzerrungen, die durch die äquidistante Projektion (ERP) verursacht werden, eine herausfordernde Aufgabe. Bestehende Ansätze verfeinern entweder vortrainierte Diffusionsmodelle auf begrenzten ERP-Datensätzen oder versuchen tuningfreie Methoden, die dennoch auf ERP-Latentdarstellungen angewiesen sind, was zu Diskontinuitäten in der Nähe der Pole führt. In diesem Artikel stellen wir SphereDiff vor, einen neuartigen Ansatz zur nahtlosen Erzeugung von 360-Grad-Panoramabildern und -videos mithilfe modernster Diffusionsmodelle ohne zusätzliche Anpassung. Wir definieren eine sphärische Latentdarstellung, die eine gleichmäßige Verteilung über alle Perspektiven gewährleistet und so die inhärenten Verzerrungen der ERP mildert. Wir erweitern MultiDiffusion auf den sphärischen Latentraum und schlagen eine sphärische Latentabtastmethode vor, um den direkten Einsatz vortrainierter Diffusionsmodelle zu ermöglichen. Darüber hinaus führen wir eine verzerrungsbewusste gewichtete Mittelung ein, um die Generierungsqualität im Projektionsprozess weiter zu verbessern. Unser Ansatz übertrifft bestehende Methoden bei der Erzeugung von 360-Grad-Panoramainhalten bei gleichzeitiger Beibehaltung hoher Detailtreue, was ihn zu einer robusten Lösung für immersive AR/VR-Anwendungen macht. Der Code ist hier verfügbar: https://github.com/pmh9960/SphereDiff.
English
The increasing demand for AR/VR applications has highlighted the need for high-quality 360-degree panoramic content. However, generating high-quality 360-degree panoramic images and videos remains a challenging task due to the severe distortions introduced by equirectangular projection (ERP). Existing approaches either fine-tune pretrained diffusion models on limited ERP datasets or attempt tuning-free methods that still rely on ERP latent representations, leading to discontinuities near the poles. In this paper, we introduce SphereDiff, a novel approach for seamless 360-degree panoramic image and video generation using state-of-the-art diffusion models without additional tuning. We define a spherical latent representation that ensures uniform distribution across all perspectives, mitigating the distortions inherent in ERP. We extend MultiDiffusion to spherical latent space and propose a spherical latent sampling method to enable direct use of pretrained diffusion models. Moreover, we introduce distortion-aware weighted averaging to further improve the generation quality in the projection process. Our method outperforms existing approaches in generating 360-degree panoramic content while maintaining high fidelity, making it a robust solution for immersive AR/VR applications. The code is available here. https://github.com/pmh9960/SphereDiff

Summary

AI-Generated Summary

PDF282April 22, 2025