HyperFields: Op Weg naar Zero-Shot Generatie van NeRFs vanuit Tekst
HyperFields: Towards Zero-Shot Generation of NeRFs from Text
October 26, 2023
Auteurs: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI
Samenvatting
We introduceren HyperFields, een methode voor het genereren van tekst-geconditioneerde Neural Radiance Fields (NeRFs) met een enkele forward pass en (optioneel) wat fine-tuning. Centraal in onze aanpak staan: (i) een dynamisch hypernetwerk, dat een vloeiende mapping leert van tekst-token embeddings naar de ruimte van NeRFs; (ii) NeRF-distillatietraining, die scènes die zijn gecodeerd in individuele NeRFs destilleert in één dynamisch hypernetwerk. Deze technieken maken het mogelijk dat één enkel netwerk meer dan honderd unieke scènes kan aanpassen. We demonstreren verder dat HyperFields een meer algemene mapping tussen tekst en NeRFs leert, en daardoor in staat is om nieuwe in-distributie en out-of-distributie scènes te voorspellen – zowel zero-shot als met een paar fine-tuning stappen. Fine-tuning van HyperFields profiteert van versnelde convergentie dankzij de geleerde algemene mapping, en is in staat om nieuwe scènes 5 tot 10 keer sneller te synthetiseren dan bestaande op neurale optimalisatie gebaseerde methoden. Onze ablatie-experimenten laten zien dat zowel de dynamische architectuur als NeRF-distillatie cruciaal zijn voor de expressiviteit van HyperFields.
English
We introduce HyperFields, a method for generating text-conditioned Neural
Radiance Fields (NeRFs) with a single forward pass and (optionally) some
fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns
a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF
distillation training, which distills scenes encoded in individual NeRFs into
one dynamic hypernetwork. These techniques enable a single network to fit over
a hundred unique scenes. We further demonstrate that HyperFields learns a more
general map between text and NeRFs, and consequently is capable of predicting
novel in-distribution and out-of-distribution scenes -- either zero-shot or
with a few finetuning steps. Finetuning HyperFields benefits from accelerated
convergence thanks to the learned general map, and is capable of synthesizing
novel scenes 5 to 10 times faster than existing neural optimization-based
methods. Our ablation experiments show that both the dynamic architecture and
NeRF distillation are critical to the expressivity of HyperFields.