ChatPaper.aiChatPaper

HyperFields : Vers la génération zéro-shot de NeRFs à partir de texte

HyperFields: Towards Zero-Shot Generation of NeRFs from Text

October 26, 2023
Auteurs: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI

Résumé

Nous présentons HyperFields, une méthode pour générer des champs de rayonnement neuronaux (NeRFs) conditionnés par du texte avec une seule passe avant et (optionnellement) un ajustement fin. Les éléments clés de notre approche sont : (i) un hyper-réseau dynamique, qui apprend une correspondance fluide entre les embeddings de tokens textuels et l'espace des NeRFs ; (ii) un entraînement par distillation de NeRF, qui distille les scènes encodées dans des NeRFs individuels en un seul hyper-réseau dynamique. Ces techniques permettent à un seul réseau de s'adapter à plus d'une centaine de scènes uniques. Nous démontrons en outre qu'HyperFields apprend une correspondance plus générale entre le texte et les NeRFs, et est par conséquent capable de prédire des scènes nouvelles, qu'elles soient dans la distribution ou hors distribution — soit de manière zero-shot, soit avec quelques étapes d'ajustement fin. L'ajustement fin d'HyperFields bénéficie d'une convergence accélérée grâce à la correspondance générale apprise, et est capable de synthétiser des scènes nouvelles 5 à 10 fois plus rapidement que les méthodes existantes basées sur l'optimisation neuronale. Nos expériences d'ablation montrent que l'architecture dynamique et la distillation de NeRF sont toutes deux essentielles à l'expressivité d'HyperFields.
English
We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.
PDF152December 15, 2024