Campi Neurali Radiance con Spazio Latente Ricostruttivo per Rappresentazioni 3D Efficienti

Abstract

I Neural Radiance Fields (NeRFs) si sono dimostrati rappresentazioni 3D potenti, in grado di sintetizzare nuove viste di alta qualità di scene complesse. Sebbene i NeRFs siano stati applicati in grafica, visione e robotica, problemi legati alla lentezza di rendering e ad artefatti visivi caratteristici ne impediscono l'adozione in molti casi d'uso. In questo lavoro, esploriamo la combinazione di un autoencoder (AE) con un NeRF, in cui vengono renderizzate feature latenti (invece dei colori) e poi decodificate convoluzionalmente. Il NeRF nello spazio latente risultante può produrre nuove viste con una qualità superiore rispetto ai NeRFs standard nello spazio colore, poiché l'AE può correggere determinati artefatti visivi, rendendo oltre tre volte più velocemente. Il nostro lavoro è ortogonale ad altre tecniche per migliorare l'efficienza dei NeRFs. Inoltre, possiamo controllare il compromesso tra efficienza e qualità dell'immagine riducendo l'architettura dell'AE, ottenendo un rendering oltre 13 volte più veloce con solo un piccolo calo delle prestazioni. Speriamo che il nostro approccio possa costituire la base di una rappresentazione 3D efficiente ma ad alta fedeltà per task successivi, specialmente quando è utile mantenere la differenziabilità, come in molti scenari robotici che richiedono apprendimento continuo.

English

Neural Radiance Fields (NeRFs) have proven to be powerful 3D representations, capable of high quality novel view synthesis of complex scenes. While NeRFs have been applied to graphics, vision, and robotics, problems with slow rendering speed and characteristic visual artifacts prevent adoption in many use cases. In this work, we investigate combining an autoencoder (AE) with a NeRF, in which latent features (instead of colours) are rendered and then convolutionally decoded. The resulting latent-space NeRF can produce novel views with higher quality than standard colour-space NeRFs, as the AE can correct certain visual artifacts, while rendering over three times faster. Our work is orthogonal to other techniques for improving NeRF efficiency. Further, we can control the tradeoff between efficiency and image quality by shrinking the AE architecture, achieving over 13 times faster rendering with only a small drop in performance. We hope that our approach can form the basis of an efficient, yet high-fidelity, 3D scene representation for downstream tasks, especially when retaining differentiability is useful, as in many robotics scenarios requiring continual learning.

Campi Neurali Radiance con Spazio Latente Ricostruttivo per Rappresentazioni 3D Efficienti

Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D Scene Representations

Abstract

Support