Aprendendo uma Mistura Heterogênea de Especialistas em Cenas para Campos de Radiação Neural em Grande Escala
Learning Heterogeneous Mixture of Scene Experts for Large-scale Neural Radiance Fields
May 4, 2025
Autores: Zhenxing Mi, Ping Yin, Xue Xiao, Dan Xu
cs.AI
Resumo
Métodos recentes de NeRF em cenas de grande escala destacaram a importância da decomposição de cenas para NeRFs escaláveis. Embora tenham alcançado uma escalabilidade razoável, ainda existem vários problemas críticos não explorados, como a decomposição aprendível, a modelagem da heterogeneidade da cena e a eficiência de modelagem. Neste artigo, apresentamos o Switch-NeRF++, uma rede de Mistura Heterogênea de Especialistas em Hash (HMoHE) que aborda esses desafios dentro de uma estrutura unificada. Trata-se de um NeRF altamente escalável que aprende a decomposição heterogênea e NeRFs heterogêneos de forma eficiente para cenas de grande escala de ponta a ponta. Em nossa estrutura, uma rede de portas aprende a decompor as cenas e alocar pontos 3D a especialistas NeRF específicos. Essa rede de portas é co-otimizada com os especialistas, por meio de nossa proposta de estrutura NeRF de Mistura de Especialistas com Portas Esparsas (MoE). Incorporamos uma rede de portas baseada em hash e especialistas em hash heterogêneos distintos. A rede de portas baseada em hash aprende eficientemente a decomposição da cena de grande escala. Os especialistas em hash heterogêneos distintos consistem em grades de hash com diferentes faixas de resolução, permitindo o aprendizado eficaz da representação heterogênea de diferentes partes da cena. Essas escolhas de design tornam nossa estrutura uma solução NeRF de ponta a ponta e altamente escalável para a modelagem de cenas de grande escala do mundo real, alcançando tanto qualidade quanto eficiência. Avaliamos nossa precisão e escalabilidade em conjuntos de dados NeRF de grande escala existentes e em um novo conjunto de dados com cenas de escala muito grande (>6,5 km²) do UrbanBIS. Experimentos extensivos demonstram que nossa abordagem pode ser facilmente escalada para várias cenas de grande escala e alcançar a precisão de renderização de cenas mais avançada do estado da arte. Além disso, nosso método exibe eficiência significativa, com uma aceleração de 8x no treinamento e uma aceleração de 16x na renderização em comparação com o Switch-NeRF. Os códigos serão liberados em https://github.com/MiZhenxing/Switch-NeRF.
English
Recent NeRF methods on large-scale scenes have underlined the importance of
scene decomposition for scalable NeRFs. Although achieving reasonable
scalability, there are several critical problems remaining unexplored, i.e.,
learnable decomposition, modeling scene heterogeneity, and modeling efficiency.
In this paper, we introduce Switch-NeRF++, a Heterogeneous Mixture of Hash
Experts (HMoHE) network that addresses these challenges within a unified
framework. It is a highly scalable NeRF that learns heterogeneous decomposition
and heterogeneous NeRFs efficiently for large-scale scenes in an end-to-end
manner. In our framework, a gating network learns to decomposes scenes and
allocates 3D points to specialized NeRF experts. This gating network is
co-optimized with the experts, by our proposed Sparsely Gated Mixture of
Experts (MoE) NeRF framework. We incorporate a hash-based gating network and
distinct heterogeneous hash experts. The hash-based gating efficiently learns
the decomposition of the large-scale scene. The distinct heterogeneous hash
experts consist of hash grids of different resolution ranges, enabling
effective learning of the heterogeneous representation of different scene
parts. These design choices make our framework an end-to-end and highly
scalable NeRF solution for real-world large-scale scene modeling to achieve
both quality and efficiency. We evaluate our accuracy and scalability on
existing large-scale NeRF datasets and a new dataset with very large-scale
scenes (>6.5km^2) from UrbanBIS. Extensive experiments demonstrate that our
approach can be easily scaled to various large-scale scenes and achieve
state-of-the-art scene rendering accuracy. Furthermore, our method exhibits
significant efficiency, with an 8x acceleration in training and a 16x
acceleration in rendering compared to Switch-NeRF. Codes will be released in
https://github.com/MiZhenxing/Switch-NeRF.