360Anything: Elevación Libre de Geometría de Imágenes y Vídeos a 360°

Resumen

La elevación de imágenes y vídeos en perspectiva a panoramas 360° permite la generación de mundos 3D inmersivos. Los enfoques existentes a menudo dependen de una alineación geométrica explícita entre el espacio de proyección de perspectiva y el equirrectangular (ERP). Sin embargo, esto requiere metadatos de cámara conocidos, lo que limita la aplicación a datos del mundo real, donde dicha calibración suele estar ausente o ser ruidosa. Proponemos 360Anything, un marco libre de geometría basado en transformadores de difusión preentrenados. Al tratar la entrada en perspectiva y el panorama objetivo simplemente como secuencias de tokens, 360Anything aprende el mapeo perspectiva-a-equirrectangular de una manera puramente basada en datos, eliminando la necesidad de información de la cámara. Nuestro enfoque logra un rendimiento de vanguardia en la generación perspectiva-a-360° tanto para imágenes como para vídeos, superando trabajos anteriores que utilizan información de cámara de verdad terreno. También rastreamos la causa principal de los artefactos de costura en los límites del ERP al relleno de ceros (zero-padding) en el codificador VAE, e introducimos la Codificación Latente Circular para facilitar una generación sin costuras. Finalmente, mostramos resultados competitivos en benchmarks de estimación de campo visual (FoV) y orientación de cámara con zero-shot, demostrando la profunda comprensión geométrica de 360Anything y su utilidad más amplia en tareas de visión por computador. Los resultados adicionales están disponibles en https://360anything.github.io/.

English

Lifting perspective images and videos to 360° panoramas enables immersive 3D world generation. Existing approaches often rely on explicit geometric alignment between the perspective and the equirectangular projection (ERP) space. Yet, this requires known camera metadata, obscuring the application to in-the-wild data where such calibration is typically absent or noisy. We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers. By treating the perspective input and the panorama target simply as token sequences, 360Anything learns the perspective-to-equirectangular mapping in a purely data-driven way, eliminating the need for camera information. Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information. We also trace the root cause of the seam artifacts at ERP boundaries to zero-padding in the VAE encoder, and introduce Circular Latent Encoding to facilitate seamless generation. Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks. Additional results are available at https://360anything.github.io/.