ChatPaper.aiChatPaper

360Anything: 이미지와 비디오의 기하학적 제약 없이 360°로 전환하는 기술

360Anything: Geometry-Free Lifting of Images and Videos to 360°

January 22, 2026
저자: Ziyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena
cs.AI

초록

원근 이미지와 동영상을 360° 파노라마로 변환하는 것은 몰입형 3D 세계 생성의 핵심 기술입니다. 기존 접근법들은 주로 원근법과 등장방형 투영(ERP) 공간 간의 명시적인 기하학적 정합에 의존합니다. 그러나 이는 카메라 메타데이터를 요구하므로, 보정 정보가 일반적으로 부재하거나 노이즈가 많은 실제 환경 데이터 적용에 한계가 있습니다. 본 연구에서는 사전 학습된 디퓨전 트랜스포머 기반의 기하학적 제약이 없는 프레임워크인 360Anything을 제안합니다. 원근 입력과 파노라마 타겟을 단순히 토큰 시퀀스로 간주함으로써, 360Anything은 순수하게 데이터 주도 방식으로 원근-등장방형 매핑을 학습하여 카메라 정보 필요성을 제거합니다. 제안 방법은 이미지 및 동영상 원근-360° 생성 과제에서 정답 카메라 정보를 사용하는 기존 연구들을 능가하는 최첨단 성능을 달성합니다. 또한 ERP 경계에서 발생하는 이음매 아티팩트의 근본 원인이 VAE 인코더의 제로 패딩에 있음을 규명하고, 원활한 생성을 위한 순환 잠재 인코딩을 도입합니다. 마지막으로 제로샷 카메라 시야각 및 방향 추론 벤치마크에서 경쟁력 있는 결과를 보여줌으로써 360Anything의 심층 기하학적 이해와 컴퓨터 비전 작업에서의 광범위한 유용성을 입증합니다. 추가 결과는 https://360anything.github.io/에서 확인할 수 있습니다.
English
Lifting perspective images and videos to 360° panoramas enables immersive 3D world generation. Existing approaches often rely on explicit geometric alignment between the perspective and the equirectangular projection (ERP) space. Yet, this requires known camera metadata, obscuring the application to in-the-wild data where such calibration is typically absent or noisy. We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers. By treating the perspective input and the panorama target simply as token sequences, 360Anything learns the perspective-to-equirectangular mapping in a purely data-driven way, eliminating the need for camera information. Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information. We also trace the root cause of the seam artifacts at ERP boundaries to zero-padding in the VAE encoder, and introduce Circular Latent Encoding to facilitate seamless generation. Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks. Additional results are available at https://360anything.github.io/.
PDF51January 24, 2026