ChatPaper.aiChatPaper

HyperFields: Auf dem Weg zur Null-Shot-Generierung von NeRFs aus Text

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

October 26, 2023
Autoren: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI

Zusammenfassung

Wir stellen HyperFields vor, eine Methode zur Erzeugung von textbedingten Neural Radiance Fields (NeRFs) mit einem einzigen Vorwärtsdurchlauf und (optional) etwas Feinabstimmung. Kern unseres Ansatzes sind: (i) ein dynamisches Hypernetzwerk, das eine glatte Abbildung von Text-Token-Embeddings in den Raum der NeRFs lernt; (ii) NeRF-Destillationstraining, das Szenen, die in einzelnen NeRFs kodiert sind, in ein dynamisches Hypernetzwerk destilliert. Diese Techniken ermöglichen es einem einzigen Netzwerk, über hundert einzigartige Szenen anzupassen. Wir zeigen weiterhin, dass HyperFields eine allgemeinere Abbildung zwischen Text und NeRFs lernt und folglich in der Lage ist, neuartige in-Verteilung und außerhalb der Verteilung liegende Szenen vorherzusagen – entweder zero-shot oder mit einigen Feinabstimmungsschritten. Die Feinabstimmung von HyperFields profitiert von einer beschleunigten Konvergenz dank der erlernten allgemeinen Abbildung und ist in der Lage, neuartige Szenen 5 bis 10 Mal schneller zu synthetisieren als bestehende neuronale optimierungsbasierte Methoden. Unsere Ablationsexperimente zeigen, dass sowohl die dynamische Architektur als auch die NeRF-Destillation entscheidend für die Ausdruckskraft von HyperFields sind.
English
We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.
PDF152December 15, 2024