3次元認識を備えた2次元表現を用いた潜在放射フィールド
Latent Radiance Fields with 3D-aware 2D Representations
February 13, 2025
著者: Chaoyi Zhou, Xi Liu, Feng Luo, Siyu Huang
cs.AI
要旨
潜在的な3D再構築は、2D特徴を3D空間に蒸留することで、3D意味理解と3D生成を促進する可能性を示しています。ただし、既存の手法は、2D特徴空間と3D表現の間のドメインのギャップに苦しんでおり、レンダリング性能が低下しています。この課題に対処するために、我々は、3D意識を2D潜在空間に統合する新しいフレームワークを提案します。このフレームワークは、次の3つの段階で構成されています:(1)2D潜在表現の3D整合性を向上させる対応意識オートエンコーディング手法、(2)これらの3D意識的な2D表現を3D空間に引き上げる潜在放射フィールド(LRF)、および(3)レンダリングされた2D表現からの画像デコーディングを改善するVAE-放射フィールド(VAE-RF)の整列戦略。包括的な実験により、我々の手法が、多様な屋内外のシーンにわたる合成性能とクロスデータセットの汎化性能において、最先端の潜在的な3D再構築手法を上回ることが示されました。私たちの知る限り、これは、2D潜在表現から構築された放射フィールド表現が写実的な3D再構築性能をもたらすことを示す最初の研究です。
English
Latent 3D reconstruction has shown great promise in empowering 3D semantic
understanding and 3D generation by distilling 2D features into the 3D space.
However, existing approaches struggle with the domain gap between 2D feature
space and 3D representations, resulting in degraded rendering performance. To
address this challenge, we propose a novel framework that integrates 3D
awareness into the 2D latent space. The framework consists of three stages: (1)
a correspondence-aware autoencoding method that enhances the 3D consistency of
2D latent representations, (2) a latent radiance field (LRF) that lifts these
3D-aware 2D representations into 3D space, and (3) a VAE-Radiance Field
(VAE-RF) alignment strategy that improves image decoding from the rendered 2D
representations. Extensive experiments demonstrate that our method outperforms
the state-of-the-art latent 3D reconstruction approaches in terms of synthesis
performance and cross-dataset generalizability across diverse indoor and
outdoor scenes. To our knowledge, this is the first work showing the radiance
field representations constructed from 2D latent representations can yield
photorealistic 3D reconstruction performance.Summary
AI-Generated Summary