ChatPaper.aiChatPaper

SphereDiff: Generación Omnidireccional de Imágenes y Videos Panorámicos sin Ajustes mediante Representación Latente Esférica

SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

April 19, 2025
Autores: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
cs.AI

Resumen

La creciente demanda de aplicaciones de realidad aumentada (AR) y realidad virtual (VR) ha puesto de manifiesto la necesidad de contenido panorámico de 360 grados de alta calidad. Sin embargo, generar imágenes y videos panorámicos de 360 grados de alta calidad sigue siendo una tarea desafiante debido a las severas distorsiones introducidas por la proyección equirectangular (ERP). Los enfoques existentes ajustan modelos de difusión preentrenados en conjuntos de datos ERP limitados o intentan métodos sin ajuste que aún dependen de representaciones latentes ERP, lo que genera discontinuidades cerca de los polos. En este artículo, presentamos SphereDiff, un enfoque novedoso para la generación de imágenes y videos panorámicos de 360 grados sin costuras utilizando modelos de difusión de última generación sin necesidad de ajustes adicionales. Definimos una representación latente esférica que garantiza una distribución uniforme en todas las perspectivas, mitigando las distorsiones inherentes a la ERP. Extendemos MultiDiffusion al espacio latente esférico y proponemos un método de muestreo latente esférico para permitir el uso directo de modelos de difusión preentrenados. Además, introducimos un promedio ponderado consciente de las distorsiones para mejorar aún más la calidad de la generación en el proceso de proyección. Nuestro método supera a los enfoques existentes en la generación de contenido panorámico de 360 grados mientras mantiene una alta fidelidad, convirtiéndolo en una solución robusta para aplicaciones inmersivas de AR/VR. El código está disponible aquí: https://github.com/pmh9960/SphereDiff.
English
The increasing demand for AR/VR applications has highlighted the need for high-quality 360-degree panoramic content. However, generating high-quality 360-degree panoramic images and videos remains a challenging task due to the severe distortions introduced by equirectangular projection (ERP). Existing approaches either fine-tune pretrained diffusion models on limited ERP datasets or attempt tuning-free methods that still rely on ERP latent representations, leading to discontinuities near the poles. In this paper, we introduce SphereDiff, a novel approach for seamless 360-degree panoramic image and video generation using state-of-the-art diffusion models without additional tuning. We define a spherical latent representation that ensures uniform distribution across all perspectives, mitigating the distortions inherent in ERP. We extend MultiDiffusion to spherical latent space and propose a spherical latent sampling method to enable direct use of pretrained diffusion models. Moreover, we introduce distortion-aware weighted averaging to further improve the generation quality in the projection process. Our method outperforms existing approaches in generating 360-degree panoramic content while maintaining high fidelity, making it a robust solution for immersive AR/VR applications. The code is available here. https://github.com/pmh9960/SphereDiff

Summary

AI-Generated Summary

PDF282April 22, 2025