ChatPaper.aiChatPaper

EscherNet: スケーラブルな視点合成のための生成モデル

EscherNet: A Generative Model for Scalable View Synthesis

February 6, 2024
著者: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI

要旨

私たちは、ビュー合成のためのマルチビュー条件付き拡散モデルであるEscherNetを紹介します。EscherNetは、暗黙的で生成的な3D表現を、特殊化されたカメラ位置エンコーディングと組み合わせて学習し、任意の数の参照ビューとターゲットビューの間でカメラ変換を精密かつ連続的に制御することを可能にします。EscherNetは、ビュー合成において卓越した汎用性、柔軟性、スケーラビリティを提供します。単一のコンシューマーグレードGPU上で、3つの参照ビューから3つのターゲットビューという固定数の学習にもかかわらず、100以上の一貫したターゲットビューを同時に生成することができます。その結果、EscherNetはゼロショットの新規ビュー合成に対応するだけでなく、単一および複数画像の3D再構成を自然に統合し、これらの多様なタスクを単一の結束したフレームワークに組み合わせます。私たちの広範な実験は、EscherNetが、各問題に特化して設計された手法と比較しても、複数のベンチマークで最先端の性能を達成することを示しています。この驚くべき汎用性は、3Dビジョンのためのスケーラブルなニューラルアーキテクチャを設計するための新しい方向性を切り開きます。プロジェクトページ: https://kxhit.github.io/EscherNet。
English
We introduce EscherNet, a multi-view conditioned diffusion model for view synthesis. EscherNet learns implicit and generative 3D representations coupled with a specialised camera positional encoding, allowing precise and continuous relative control of the camera transformation between an arbitrary number of reference and target views. EscherNet offers exceptional generality, flexibility, and scalability in view synthesis -- it can generate more than 100 consistent target views simultaneously on a single consumer-grade GPU, despite being trained with a fixed number of 3 reference views to 3 target views. As a result, EscherNet not only addresses zero-shot novel view synthesis, but also naturally unifies single- and multi-image 3D reconstruction, combining these diverse tasks into a single, cohesive framework. Our extensive experiments demonstrate that EscherNet achieves state-of-the-art performance in multiple benchmarks, even when compared to methods specifically tailored for each individual problem. This remarkable versatility opens up new directions for designing scalable neural architectures for 3D vision. Project page: https://kxhit.github.io/EscherNet.
PDF81December 15, 2024