SphereDiff: 球面潜在表現によるチューニング不要の全方位パノラマ画像・動画生成
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
April 19, 2025
著者: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI
要旨
AR/VRアプリケーションの需要が高まる中、高品質な360度パノラマコンテンツの必要性が顕著になっています。しかし、高品質な360度パノラマ画像や動画の生成は、正距円筒図法(ERP)によって引き起こされる深刻な歪みのため、依然として困難な課題です。既存の手法では、限られたERPデータセットで事前学習済みの拡散モデルを微調整するか、ERPの潜在表現に依存するチューニング不要の方法を試みていますが、これらは極付近での不連続性を引き起こします。本論文では、追加のチューニングなしで最先端の拡散モデルを使用して、シームレスな360度パノラマ画像および動画を生成する新しいアプローチであるSphereDiffを紹介します。我々は、すべての視点にわたって均一な分布を保証する球面潜在表現を定義し、ERPに内在する歪みを軽減します。MultiDiffusionを球面潜在空間に拡張し、事前学習済みの拡散モデルを直接使用できるようにする球面潜在サンプリング法を提案します。さらに、投影プロセスにおける生成品質をさらに向上させるために、歪みを考慮した重み付き平均法を導入します。本手法は、高忠実度を維持しながら360度パノラマコンテンツを生成する点で既存の手法を上回り、没入型AR/VRアプリケーションのための堅牢なソリューションとなります。コードはこちらで公開されています。https://github.com/pmh9960/SphereDiff
English
The increasing demand for AR/VR applications has highlighted the need for
high-quality 360-degree panoramic content. However, generating high-quality
360-degree panoramic images and videos remains a challenging task due to the
severe distortions introduced by equirectangular projection (ERP). Existing
approaches either fine-tune pretrained diffusion models on limited ERP datasets
or attempt tuning-free methods that still rely on ERP latent representations,
leading to discontinuities near the poles. In this paper, we introduce
SphereDiff, a novel approach for seamless 360-degree panoramic image and video
generation using state-of-the-art diffusion models without additional tuning.
We define a spherical latent representation that ensures uniform distribution
across all perspectives, mitigating the distortions inherent in ERP. We extend
MultiDiffusion to spherical latent space and propose a spherical latent
sampling method to enable direct use of pretrained diffusion models. Moreover,
we introduce distortion-aware weighted averaging to further improve the
generation quality in the projection process. Our method outperforms existing
approaches in generating 360-degree panoramic content while maintaining high
fidelity, making it a robust solution for immersive AR/VR applications. The
code is available here. https://github.com/pmh9960/SphereDiffSummary
AI-Generated Summary