HyperFields: Verso la Generazione Zero-Shot di NeRF da Testo

Abstract

Introduciamo HyperFields, un metodo per generare Neural Radiance Fields (NeRFs) condizionati da testo con un singolo passaggio in avanti e (opzionalmente) un po' di fine-tuning. Elementi chiave del nostro approccio sono: (i) un hypernetwork dinamico, che apprende una mappatura fluida dalle rappresentazioni dei token di testo allo spazio dei NeRFs; (ii) l'addestramento per distillazione di NeRF, che distilla scene codificate in singoli NeRFs in un unico hypernetwork dinamico. Queste tecniche consentono a una singola rete di adattarsi a oltre cento scene uniche. Dimostriamo inoltre che HyperFields apprende una mappatura più generale tra testo e NeRFs, e di conseguenza è in grado di prevedere scene nuove, sia all'interno della distribuzione che al di fuori di essa, in modalità zero-shot o con pochi passaggi di fine-tuning. Il fine-tuning di HyperFields beneficia di una convergenza accelerata grazie alla mappatura generale appresa ed è in grado di sintetizzare scene nuove da 5 a 10 volte più velocemente rispetto ai metodi esistenti basati su ottimizzazione neurale. I nostri esperimenti di ablazione mostrano che sia l'architettura dinamica che la distillazione di NeRF sono critiche per l'espressività di HyperFields.

English

We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.

HyperFields: Verso la Generazione Zero-Shot di NeRF da Testo

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

Abstract

Support