Campi di radianza latente con rappresentazioni 2D consapevoli dello spazio 3D
Latent Radiance Fields with 3D-aware 2D Representations
February 13, 2025
Autori: Chaoyi Zhou, Xi Liu, Feng Luo, Siyu Huang
cs.AI
Abstract
La ricostruzione latente in 3D ha mostrato un grande potenziale nel potenziare la comprensione semantica in 3D e la generazione in 3D attraverso la distillazione delle caratteristiche in 2D nello spazio tridimensionale. Tuttavia, gli approcci esistenti faticano con il divario di dominio tra lo spazio delle caratteristiche in 2D e le rappresentazioni in 3D, che porta a una performance di rendering degradata. Per affrontare questa sfida, proponiamo un nuovo framework che integra la consapevolezza in 3D nello spazio latente in 2D. Il framework è composto da tre fasi: (1) un metodo di autoencoding consapevole della corrispondenza che migliora la coerenza in 3D delle rappresentazioni latenti in 2D, (2) un campo di radianza latente (LRF) che trasferisce queste rappresentazioni in 2D consapevoli in 3D e (3) una strategia di allineamento VAE-Campo di Radianza (VAE-RF) che migliora la decodifica delle immagini dalle rappresentazioni in 2D renderizzate. Estesi esperimenti dimostrano che il nostro metodo supera gli approcci di ricostruzione latente in 3D all'avanguardia in termini di performance di sintesi e generalizzabilità tra dataset diversi di scene interne ed esterne. A nostra conoscenza, questo è il primo lavoro che dimostra che le rappresentazioni del campo di radianza costruite dalle rappresentazioni latenti in 2D possono produrre una performance di ricostruzione in 3D fotorealistica.
English
Latent 3D reconstruction has shown great promise in empowering 3D semantic
understanding and 3D generation by distilling 2D features into the 3D space.
However, existing approaches struggle with the domain gap between 2D feature
space and 3D representations, resulting in degraded rendering performance. To
address this challenge, we propose a novel framework that integrates 3D
awareness into the 2D latent space. The framework consists of three stages: (1)
a correspondence-aware autoencoding method that enhances the 3D consistency of
2D latent representations, (2) a latent radiance field (LRF) that lifts these
3D-aware 2D representations into 3D space, and (3) a VAE-Radiance Field
(VAE-RF) alignment strategy that improves image decoding from the rendered 2D
representations. Extensive experiments demonstrate that our method outperforms
the state-of-the-art latent 3D reconstruction approaches in terms of synthesis
performance and cross-dataset generalizability across diverse indoor and
outdoor scenes. To our knowledge, this is the first work showing the radiance
field representations constructed from 2D latent representations can yield
photorealistic 3D reconstruction performance.Summary
AI-Generated Summary