HyperFields: Auf dem Weg zur Null-Shot-Generierung von NeRFs aus Text
HyperFields: Towards Zero-Shot Generation of NeRFs from Text
October 26, 2023
Autoren: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI
Zusammenfassung
Wir stellen HyperFields vor, eine Methode zur Erzeugung von textbedingten Neural Radiance Fields (NeRFs) mit einem einzigen Vorwärtsdurchlauf und (optional) etwas Feinabstimmung. Kern unseres Ansatzes sind: (i) ein dynamisches Hypernetzwerk, das eine glatte Abbildung von Text-Token-Embeddings in den Raum der NeRFs lernt; (ii) NeRF-Destillationstraining, das Szenen, die in einzelnen NeRFs kodiert sind, in ein dynamisches Hypernetzwerk destilliert. Diese Techniken ermöglichen es einem einzigen Netzwerk, über hundert einzigartige Szenen anzupassen. Wir zeigen weiterhin, dass HyperFields eine allgemeinere Abbildung zwischen Text und NeRFs lernt und folglich in der Lage ist, neuartige in-Verteilung und außerhalb der Verteilung liegende Szenen vorherzusagen – entweder zero-shot oder mit einigen Feinabstimmungsschritten. Die Feinabstimmung von HyperFields profitiert von einer beschleunigten Konvergenz dank der erlernten allgemeinen Abbildung und ist in der Lage, neuartige Szenen 5 bis 10 Mal schneller zu synthetisieren als bestehende neuronale optimierungsbasierte Methoden. Unsere Ablationsexperimente zeigen, dass sowohl die dynamische Architektur als auch die NeRF-Destillation entscheidend für die Ausdruckskraft von HyperFields sind.
English
We introduce HyperFields, a method for generating text-conditioned Neural
Radiance Fields (NeRFs) with a single forward pass and (optionally) some
fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns
a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF
distillation training, which distills scenes encoded in individual NeRFs into
one dynamic hypernetwork. These techniques enable a single network to fit over
a hundred unique scenes. We further demonstrate that HyperFields learns a more
general map between text and NeRFs, and consequently is capable of predicting
novel in-distribution and out-of-distribution scenes -- either zero-shot or
with a few finetuning steps. Finetuning HyperFields benefits from accelerated
convergence thanks to the learned general map, and is capable of synthesizing
novel scenes 5 to 10 times faster than existing neural optimization-based
methods. Our ablation experiments show that both the dynamic architecture and
NeRF distillation are critical to the expressivity of HyperFields.