ChatPaper.aiChatPaper

HyperFields: Verso la Generazione Zero-Shot di NeRF da Testo

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

October 26, 2023
Autori: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI

Abstract

Introduciamo HyperFields, un metodo per generare Neural Radiance Fields (NeRFs) condizionati da testo con un singolo passaggio in avanti e (opzionalmente) un po' di fine-tuning. Elementi chiave del nostro approccio sono: (i) un hypernetwork dinamico, che apprende una mappatura fluida dalle rappresentazioni dei token di testo allo spazio dei NeRFs; (ii) l'addestramento per distillazione di NeRF, che distilla scene codificate in singoli NeRFs in un unico hypernetwork dinamico. Queste tecniche consentono a una singola rete di adattarsi a oltre cento scene uniche. Dimostriamo inoltre che HyperFields apprende una mappatura più generale tra testo e NeRFs, e di conseguenza è in grado di prevedere scene nuove, sia all'interno della distribuzione che al di fuori di essa, in modalità zero-shot o con pochi passaggi di fine-tuning. Il fine-tuning di HyperFields beneficia di una convergenza accelerata grazie alla mappatura generale appresa ed è in grado di sintetizzare scene nuove da 5 a 10 volte più velocemente rispetto ai metodi esistenti basati su ottimizzazione neurale. I nostri esperimenti di ablazione mostrano che sia l'architettura dinamica che la distillazione di NeRF sono critiche per l'espressività di HyperFields.
English
We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.
PDF152February 7, 2026