Apprendimento di una miscela eterogenea di esperti di scene per campi di radianza neurale su larga scala
Learning Heterogeneous Mixture of Scene Experts for Large-scale Neural Radiance Fields
May 4, 2025
Autori: Zhenxing Mi, Ping Yin, Xue Xiao, Dan Xu
cs.AI
Abstract
I recenti metodi NeRF su scene su larga scala hanno sottolineato l'importanza della decomposizione della scene per NeRF scalabili. Sebbene abbiano raggiunto una ragionevole scalabilità, rimangono diversi problemi critici ancora inesplorati, come la decomposizione apprendibile, la modellazione dell'eterogeneità della scena e l'efficienza di modellazione. In questo articolo, introduciamo Switch-NeRF++, una rete Heterogeneous Mixture of Hash Experts (HMoHE) che affronta queste sfide all'interno di un framework unificato. Si tratta di un NeRF altamente scalabile che apprende la decomposizione eterogenea e NeRF eterogenei in modo efficiente per scene su larga scala in maniera end-to-end. Nel nostro framework, una rete di gating apprende a decomporre le scene e assegna punti 3D a esperti NeRF specializzati. Questa rete di gating è co-ottimizzata con gli esperti, grazie al nostro framework Sparsely Gated Mixture of Experts (MoE) NeRF proposto. Incorporiamo una rete di gating basata su hash e distinti esperti hash eterogenei. La rete di gating basata su hash apprende in modo efficiente la decomposizione della scena su larga scala. I distinti esperti hash eterogenei consistono in griglie hash con intervalli di risoluzione diversi, consentendo un apprendimento efficace della rappresentazione eterogenea di diverse parti della scena. Queste scelte progettuali rendono il nostro framework una soluzione NeRF end-to-end e altamente scalabile per la modellazione di scene su larga scala nel mondo reale, raggiungendo sia qualità che efficienza. Valutiamo la nostra accuratezza e scalabilità su dataset NeRF esistenti su larga scala e un nuovo dataset con scene di grandissima scala (>6.5km^2) proveniente da UrbanBIS. Esperimenti estensivi dimostrano che il nostro approccio può essere facilmente scalato a varie scene su larga scala e raggiungere un'accuratezza di rendering della scena all'avanguardia. Inoltre, il nostro metodo mostra una significativa efficienza, con un'accelerazione di 8x nell'addestramento e di 16x nel rendering rispetto a Switch-NeRF. I codici saranno rilasciati su https://github.com/MiZhenxing/Switch-NeRF.
English
Recent NeRF methods on large-scale scenes have underlined the importance of
scene decomposition for scalable NeRFs. Although achieving reasonable
scalability, there are several critical problems remaining unexplored, i.e.,
learnable decomposition, modeling scene heterogeneity, and modeling efficiency.
In this paper, we introduce Switch-NeRF++, a Heterogeneous Mixture of Hash
Experts (HMoHE) network that addresses these challenges within a unified
framework. It is a highly scalable NeRF that learns heterogeneous decomposition
and heterogeneous NeRFs efficiently for large-scale scenes in an end-to-end
manner. In our framework, a gating network learns to decomposes scenes and
allocates 3D points to specialized NeRF experts. This gating network is
co-optimized with the experts, by our proposed Sparsely Gated Mixture of
Experts (MoE) NeRF framework. We incorporate a hash-based gating network and
distinct heterogeneous hash experts. The hash-based gating efficiently learns
the decomposition of the large-scale scene. The distinct heterogeneous hash
experts consist of hash grids of different resolution ranges, enabling
effective learning of the heterogeneous representation of different scene
parts. These design choices make our framework an end-to-end and highly
scalable NeRF solution for real-world large-scale scene modeling to achieve
both quality and efficiency. We evaluate our accuracy and scalability on
existing large-scale NeRF datasets and a new dataset with very large-scale
scenes (>6.5km^2) from UrbanBIS. Extensive experiments demonstrate that our
approach can be easily scaled to various large-scale scenes and achieve
state-of-the-art scene rendering accuracy. Furthermore, our method exhibits
significant efficiency, with an 8x acceleration in training and a 16x
acceleration in rendering compared to Switch-NeRF. Codes will be released in
https://github.com/MiZhenxing/Switch-NeRF.