ChatPaper.aiChatPaper

SphereDiff: 구형 잠재 표현을 통한 조정 불필요 전방위 파노라마 이미지 및 비디오 생성

SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

April 19, 2025
저자: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI

초록

AR/VR 애플리케이션에 대한 수요가 증가함에 따라 고품질의 360도 파노라마 콘텐츠의 필요성이 부각되고 있습니다. 그러나 등장방형 투영(ERP)으로 인해 발생하는 심각한 왜곡으로 인해 고품질의 360도 파노라마 이미지와 비디오를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 접근 방식은 제한된 ERP 데이터셋에 대해 사전 학습된 확산 모델을 미세 조정하거나, 여전히 ERP 잠재 표현에 의존하는 튜닝 없는 방법을 시도함으로써 극지 근처에서의 불연속성을 초래합니다. 본 논문에서는 추가적인 튜닝 없이 최신 확산 모델을 사용하여 원활한 360도 파노라마 이미지 및 비디오 생성을 위한 새로운 접근 방식인 SphereDiff를 소개합니다. 우리는 모든 관점에서 균일한 분포를 보장하는 구형 잠재 표현을 정의함으로써 ERP에 내재된 왜곡을 완화합니다. 또한, MultiDiffusion을 구형 잠재 공간으로 확장하고, 사전 학습된 확산 모델을 직접 사용할 수 있도록 구형 잠재 샘플링 방법을 제안합니다. 더 나아가, 투영 과정에서 생성 품질을 더욱 향상시키기 위해 왜곡 인식 가중 평균 기법을 도입합니다. 우리의 방법은 고품질의 360도 파노라마 콘텐츠를 생성하는 데 있어 기존 접근 방식을 능가하며, 높은 충실도를 유지함으로써 몰입형 AR/VR 애플리케이션을 위한 견고한 솔루션을 제공합니다. 코드는 https://github.com/pmh9960/SphereDiff에서 확인할 수 있습니다.
English
The increasing demand for AR/VR applications has highlighted the need for high-quality 360-degree panoramic content. However, generating high-quality 360-degree panoramic images and videos remains a challenging task due to the severe distortions introduced by equirectangular projection (ERP). Existing approaches either fine-tune pretrained diffusion models on limited ERP datasets or attempt tuning-free methods that still rely on ERP latent representations, leading to discontinuities near the poles. In this paper, we introduce SphereDiff, a novel approach for seamless 360-degree panoramic image and video generation using state-of-the-art diffusion models without additional tuning. We define a spherical latent representation that ensures uniform distribution across all perspectives, mitigating the distortions inherent in ERP. We extend MultiDiffusion to spherical latent space and propose a spherical latent sampling method to enable direct use of pretrained diffusion models. Moreover, we introduce distortion-aware weighted averaging to further improve the generation quality in the projection process. Our method outperforms existing approaches in generating 360-degree panoramic content while maintaining high fidelity, making it a robust solution for immersive AR/VR applications. The code is available here. https://github.com/pmh9960/SphereDiff

Summary

AI-Generated Summary

PDF282April 22, 2025