HyperFields: К созданию генерации NeRF из текста без предварительного обучения
HyperFields: Towards Zero-Shot Generation of NeRFs from Text
October 26, 2023
Авторы: Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
cs.AI
Аннотация
Мы представляем HyperFields — метод генерации тексто-обусловленных Нейронных Полей Излучения (NeRF) с помощью одного прямого прохода и (опционально) некоторой тонкой настройки. Ключевыми элементами нашего подхода являются: (i) динамический гиперсеть, которая изучает плавное отображение из вложений текстовых токенов в пространство NeRF; (ii) обучение дистилляции NeRF, которое преобразует сцены, закодированные в отдельных NeRF, в одну динамическую гиперсеть. Эти методы позволяют одной сети адаптироваться к более чем сотне уникальных сцен. Мы также демонстрируем, что HyperFields изучает более общее отображение между текстом и NeRF, что позволяет предсказывать новые сцены как внутри, так и вне распределения — либо с нуля, либо с помощью нескольких шагов тонкой настройки. Тонкая настройка HyperFields выигрывает от ускоренной сходимости благодаря изученному общему отображению и способна синтезировать новые сцены в 5–10 раз быстрее, чем существующие методы, основанные на нейронной оптимизации. Наши эксперименты с абляцией показывают, что как динамическая архитектура, так и дистилляция NeRF критически важны для выразительности HyperFields.
English
We introduce HyperFields, a method for generating text-conditioned Neural
Radiance Fields (NeRFs) with a single forward pass and (optionally) some
fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns
a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF
distillation training, which distills scenes encoded in individual NeRFs into
one dynamic hypernetwork. These techniques enable a single network to fit over
a hundred unique scenes. We further demonstrate that HyperFields learns a more
general map between text and NeRFs, and consequently is capable of predicting
novel in-distribution and out-of-distribution scenes -- either zero-shot or
with a few finetuning steps. Finetuning HyperFields benefits from accelerated
convergence thanks to the learned general map, and is capable of synthesizing
novel scenes 5 to 10 times faster than existing neural optimization-based
methods. Our ablation experiments show that both the dynamic architecture and
NeRF distillation are critical to the expressivity of HyperFields.