360Anything: Sollevamento Senza Geometria di Immagini e Video a 360°

Abstract

La conversione di immagini e video prospettici in panorami a 360° abilita la generazione immersiva di mondi 3D. Gli approcci esistenti spesso si basano su un allineamento geometrico esplicito tra lo spazio prospettico e quello di proiezione equirettangolare (ERP). Tuttavia, ciò richiede metadati della fotocamera noti, limitando l'applicazione a dati "in-the-wild" dove tale calibrazione è tipicamente assente o rumorosa. Proponiamo 360Anything, un framework *geometry-free* basato su transformer di diffusione pre-addestrati. Trattando l'input prospettico e il panorama target semplicemente come sequenze di token, 360Anything apprende la mappatura prospettico-equirettangolare in modo puramente data-driven, eliminando la necessità di informazioni sulla fotocamera. Il nostro approccio raggiunge prestazioni allo stato dell'arte sia nella generazione di immagini che di video da prospettico a 360°, superando i lavori precedenti che utilizzano informazioni di ground-truth della fotocamera. Identifichiamo inoltre la causa principale degli artefatti di giunzione ai bordi dell'ERP nel *zero-padding* dell'encoder VAE e introduciamo la Codifica Latente Circolare per facilitare una generazione senza soluzione di continuità. Infine, mostriamo risultati competitivi in benchmark *zero-shot* per la stima del campo visivo (FoV) e dell'orientamento della fotocamera, dimostrando la profonda comprensione geometrica di 360Anything e la sua più ampia utilità nelle attività di computer vision. Risultati aggiuntivi sono disponibili su https://360anything.github.io/.

English

Lifting perspective images and videos to 360° panoramas enables immersive 3D world generation. Existing approaches often rely on explicit geometric alignment between the perspective and the equirectangular projection (ERP) space. Yet, this requires known camera metadata, obscuring the application to in-the-wild data where such calibration is typically absent or noisy. We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers. By treating the perspective input and the panorama target simply as token sequences, 360Anything learns the perspective-to-equirectangular mapping in a purely data-driven way, eliminating the need for camera information. Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information. We also trace the root cause of the seam artifacts at ERP boundaries to zero-padding in the VAE encoder, and introduce Circular Latent Encoding to facilitate seamless generation. Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks. Additional results are available at https://360anything.github.io/.

360Anything: Sollevamento Senza Geometria di Immagini e Video a 360°

360Anything: Geometry-Free Lifting of Images and Videos to 360°

Abstract

Support