ChatPaper.aiChatPaper

360Anything: 画像と動画の360°へのジオメトリフリーなリフティング

360Anything: Geometry-Free Lifting of Images and Videos to 360°

January 22, 2026
著者: Ziyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena
cs.AI

要旨

視点画像や動画を360°パノラマに変換することで、没入型の3Dワールド生成が可能となる。既存手法では、視点画像と正距円筒図法(ERP)空間の明示的な幾何学的対応付けに依存する場合が多い。しかし、これには既知のカメラメタデータが必要であり、較正情報が通常欠如しているかノイズを含む実世界データへの応用が困難であった。本研究では、事前学習済み拡散Transformerに基づく幾何学情報不要のフレームワーク「360Anything」を提案する。視点入力とパノラマ目標を単なるトークン列として扱うことで、360Anythingは純粋にデータ駆動的に視点-正距円筒図法間のマッピングを学習し、カメラ情報の必要性を排除する。本手法は、画像および動画の視点-360°変換において、真値のカメラ情報を用いる従来手法を凌駕する最新の性能を達成する。さらに、ERP境界で生じる継ぎ目アーティファクトの根本原因をVAEエンコーダのゼロパディングに特定し、シームレスな生成を可能にする循環潜在符号化を導入する。最後に、ゼロショットカメラ視野角・方向推定ベンチマークで競合する結果を示し、360Anythingの深い幾何学的理解とコンピュータビジョンタスクにおける広範な有用性を実証する。追加結果はhttps://360anything.github.io/で公開されている。
English
Lifting perspective images and videos to 360° panoramas enables immersive 3D world generation. Existing approaches often rely on explicit geometric alignment between the perspective and the equirectangular projection (ERP) space. Yet, this requires known camera metadata, obscuring the application to in-the-wild data where such calibration is typically absent or noisy. We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers. By treating the perspective input and the panorama target simply as token sequences, 360Anything learns the perspective-to-equirectangular mapping in a purely data-driven way, eliminating the need for camera information. Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information. We also trace the root cause of the seam artifacts at ERP boundaries to zero-padding in the VAE encoder, and introduce Circular Latent Encoding to facilitate seamless generation. Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks. Additional results are available at https://360anything.github.io/.
PDF51January 24, 2026