HyperFields: Rumando à Geração Zero-Shot de NeRFs a partir de Texto
HyperFields: Towards Zero-Shot Generation of NeRFs from Text
October 26, 2023
Autores: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI
Resumo
Apresentamos o HyperFields, um método para gerar Campos de Radiação Neural (NeRFs) condicionados por texto com uma única passagem direta e (opcionalmente) algum ajuste fino. A chave da nossa abordagem são: (i) um hiperdinâmico, que aprende um mapeamento suave de embeddings de tokens de texto para o espaço de NeRFs; (ii) o treinamento de destilação de NeRF, que destila cenas codificadas em NeRFs individuais em um único hiperdinâmico. Essas técnicas permitem que uma única rede se ajuste a mais de cem cenas únicas. Demonstramos ainda que o HyperFields aprende um mapeamento mais geral entre texto e NeRFs e, consequentemente, é capaz de prever cenas novas dentro e fora da distribuição — seja de forma zero-shot ou com alguns passos de ajuste fino. O ajuste fino do HyperFields beneficia-se de uma convergência acelerada graças ao mapeamento geral aprendido e é capaz de sintetizar cenas novas de 5 a 10 vezes mais rápido do que os métodos existentes baseados em otimização neural. Nossos experimentos de ablação mostram que tanto a arquitetura dinâmica quanto a destilação de NeRF são críticas para a expressividade do HyperFields.
English
We introduce HyperFields, a method for generating text-conditioned Neural
Radiance Fields (NeRFs) with a single forward pass and (optionally) some
fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns
a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF
distillation training, which distills scenes encoded in individual NeRFs into
one dynamic hypernetwork. These techniques enable a single network to fit over
a hundred unique scenes. We further demonstrate that HyperFields learns a more
general map between text and NeRFs, and consequently is capable of predicting
novel in-distribution and out-of-distribution scenes -- either zero-shot or
with a few finetuning steps. Finetuning HyperFields benefits from accelerated
convergence thanks to the learned general map, and is capable of synthesizing
novel scenes 5 to 10 times faster than existing neural optimization-based
methods. Our ablation experiments show that both the dynamic architecture and
NeRF distillation are critical to the expressivity of HyperFields.