Campos Latentes Reconstrutivos de Radiação Neural para Representações Eficientes de Cenas 3D

Resumo

Neural Radiance Fields (NeRFs) têm se mostrado representações 3D poderosas, capazes de sintetizar novas visões de alta qualidade em cenas complexas. Embora os NeRFs tenham sido aplicados em gráficos, visão e robótica, problemas com a lentidão na renderização e artefatos visuais característicos impedem sua adoção em muitos casos de uso. Neste trabalho, investigamos a combinação de um autoencoder (AE) com um NeRF, no qual características latentes (em vez de cores) são renderizadas e então decodificadas de forma convolucional. O NeRF no espaço latente resultante pode produzir novas visões com qualidade superior aos NeRFs padrão no espaço de cores, já que o AE pode corrigir certos artefatos visuais, enquanto renderiza mais de três vezes mais rápido. Nosso trabalho é ortogonal a outras técnicas para melhorar a eficiência dos NeRFs. Além disso, podemos controlar a relação entre eficiência e qualidade da imagem ao reduzir a arquitetura do AE, alcançando uma renderização mais de 13 vezes mais rápida com apenas uma pequena queda no desempenho. Esperamos que nossa abordagem possa formar a base de uma representação 3D eficiente, porém de alta fidelidade, para tarefas subsequentes, especialmente quando a retenção da diferenciabilidade é útil, como em muitos cenários de robótica que exigem aprendizado contínuo.

English

Neural Radiance Fields (NeRFs) have proven to be powerful 3D representations, capable of high quality novel view synthesis of complex scenes. While NeRFs have been applied to graphics, vision, and robotics, problems with slow rendering speed and characteristic visual artifacts prevent adoption in many use cases. In this work, we investigate combining an autoencoder (AE) with a NeRF, in which latent features (instead of colours) are rendered and then convolutionally decoded. The resulting latent-space NeRF can produce novel views with higher quality than standard colour-space NeRFs, as the AE can correct certain visual artifacts, while rendering over three times faster. Our work is orthogonal to other techniques for improving NeRF efficiency. Further, we can control the tradeoff between efficiency and image quality by shrinking the AE architecture, achieving over 13 times faster rendering with only a small drop in performance. We hope that our approach can form the basis of an efficient, yet high-fidelity, 3D scene representation for downstream tasks, especially when retaining differentiability is useful, as in many robotics scenarios requiring continual learning.

Campos Latentes Reconstrutivos de Radiação Neural para Representações Eficientes de Cenas 3D

Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D Scene Representations

Resumo

Support