HyperFields: Hacia la Generación de NeRFs a partir de Texto sin Ejemplos Previos

Resumen

Presentamos HyperFields, un método para generar Campos de Radiancia Neural (NeRFs) condicionados por texto con un único paso hacia adelante y (opcionalmente) algún ajuste fino. Clave en nuestro enfoque son: (i) un hiperred dinámico, que aprende un mapeo suave desde las incrustaciones de tokens de texto al espacio de NeRFs; (ii) el entrenamiento de destilación de NeRF, que destila escenas codificadas en NeRFs individuales en un hiperred dinámico. Estas técnicas permiten que una única red se ajuste a más de cien escenas únicas. Además, demostramos que HyperFields aprende un mapeo más general entre texto y NeRFs, y en consecuencia es capaz de predecir escenas novedosas dentro y fuera de la distribución, ya sea de manera inmediata (zero-shot) o con unos pocos pasos de ajuste fino. El ajuste fino de HyperFields se beneficia de una convergencia acelerada gracias al mapeo general aprendido, y es capaz de sintetizar escenas novedosas de 5 a 10 veces más rápido que los métodos basados en optimización neural existentes. Nuestros experimentos de ablación muestran que tanto la arquitectura dinámica como la destilación de NeRF son críticas para la expresividad de HyperFields.

English

We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.

HyperFields: Hacia la Generación de NeRFs a partir de Texto sin Ejemplos Previos

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

Resumen

Support