HyperFields: Hacia la Generación de NeRFs a partir de Texto sin Ejemplos Previos
HyperFields: Towards Zero-Shot Generation of NeRFs from Text
October 26, 2023
Autores: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI
Resumen
Presentamos HyperFields, un método para generar Campos de Radiancia Neural (NeRFs) condicionados por texto con un único paso hacia adelante y (opcionalmente) algún ajuste fino. Clave en nuestro enfoque son: (i) un hiperred dinámico, que aprende un mapeo suave desde las incrustaciones de tokens de texto al espacio de NeRFs; (ii) el entrenamiento de destilación de NeRF, que destila escenas codificadas en NeRFs individuales en un hiperred dinámico. Estas técnicas permiten que una única red se ajuste a más de cien escenas únicas. Además, demostramos que HyperFields aprende un mapeo más general entre texto y NeRFs, y en consecuencia es capaz de predecir escenas novedosas dentro y fuera de la distribución, ya sea de manera inmediata (zero-shot) o con unos pocos pasos de ajuste fino. El ajuste fino de HyperFields se beneficia de una convergencia acelerada gracias al mapeo general aprendido, y es capaz de sintetizar escenas novedosas de 5 a 10 veces más rápido que los métodos basados en optimización neural existentes. Nuestros experimentos de ablación muestran que tanto la arquitectura dinámica como la destilación de NeRF son críticas para la expresividad de HyperFields.
English
We introduce HyperFields, a method for generating text-conditioned Neural
Radiance Fields (NeRFs) with a single forward pass and (optionally) some
fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns
a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF
distillation training, which distills scenes encoded in individual NeRFs into
one dynamic hypernetwork. These techniques enable a single network to fit over
a hundred unique scenes. We further demonstrate that HyperFields learns a more
general map between text and NeRFs, and consequently is capable of predicting
novel in-distribution and out-of-distribution scenes -- either zero-shot or
with a few finetuning steps. Finetuning HyperFields benefits from accelerated
convergence thanks to the learned general map, and is capable of synthesizing
novel scenes 5 to 10 times faster than existing neural optimization-based
methods. Our ablation experiments show that both the dynamic architecture and
NeRF distillation are critical to the expressivity of HyperFields.