HyperFields: Verso la Generazione Zero-Shot di NeRF da Testo
HyperFields: Towards Zero-Shot Generation of NeRFs from Text
October 26, 2023
Autori: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI
Abstract
Introduciamo HyperFields, un metodo per generare Neural Radiance Fields (NeRFs) condizionati da testo con un singolo passaggio in avanti e (opzionalmente) un po' di fine-tuning. Elementi chiave del nostro approccio sono: (i) un hypernetwork dinamico, che apprende una mappatura fluida dalle rappresentazioni dei token di testo allo spazio dei NeRFs; (ii) l'addestramento per distillazione di NeRF, che distilla scene codificate in singoli NeRFs in un unico hypernetwork dinamico. Queste tecniche consentono a una singola rete di adattarsi a oltre cento scene uniche. Dimostriamo inoltre che HyperFields apprende una mappatura più generale tra testo e NeRFs, e di conseguenza è in grado di prevedere scene nuove, sia all'interno della distribuzione che al di fuori di essa, in modalità zero-shot o con pochi passaggi di fine-tuning. Il fine-tuning di HyperFields beneficia di una convergenza accelerata grazie alla mappatura generale appresa ed è in grado di sintetizzare scene nuove da 5 a 10 volte più velocemente rispetto ai metodi esistenti basati su ottimizzazione neurale. I nostri esperimenti di ablazione mostrano che sia l'architettura dinamica che la distillazione di NeRF sono critiche per l'espressività di HyperFields.
English
We introduce HyperFields, a method for generating text-conditioned Neural
Radiance Fields (NeRFs) with a single forward pass and (optionally) some
fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns
a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF
distillation training, which distills scenes encoded in individual NeRFs into
one dynamic hypernetwork. These techniques enable a single network to fit over
a hundred unique scenes. We further demonstrate that HyperFields learns a more
general map between text and NeRFs, and consequently is capable of predicting
novel in-distribution and out-of-distribution scenes -- either zero-shot or
with a few finetuning steps. Finetuning HyperFields benefits from accelerated
convergence thanks to the learned general map, and is capable of synthesizing
novel scenes 5 to 10 times faster than existing neural optimization-based
methods. Our ablation experiments show that both the dynamic architecture and
NeRF distillation are critical to the expressivity of HyperFields.