Приручение модели скрытой диффузии для восстановления нейронного поля радиантности.
Taming Latent Diffusion Model for Neural Radiance Field Inpainting
April 15, 2024
Авторы: Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
cs.AI
Аннотация
Нейронное поле радиантности (NeRF) представляет собой метод реконструкции трехмерных объектов по многовидовым изображениям. Несмотря на некоторые недавние исследования, продемонстрировавшие начальный успех в редактировании восстановленного NeRF с использованием диффузионного априорного распределения, они все еще сталкиваются с проблемой синтеза разумной геометрии в полностью незакрытых областях. Одной из основных причин является высокая разнообразность синтетических контентов из модели диффузии, что мешает радиантному полю сходиться к четкой и детерминированной геометрии. Более того, применение латентных моделей диффузии к реальным данным часто приводит к текстурному сдвигу, несогласованному с изображением из-за ошибок автоэнкодирования. Эти две проблемы дополнительно усугубляются использованием потерь на основе пикселей. Для решения этих проблем мы предлагаем уменьшить стохастичность модели диффузии с помощью настройки для каждой сцены и смягчить текстурный сдвиг с помощью обучения с маскировкой адверсариальных примеров. В ходе анализа мы также обнаружили, что широко используемые потери на основе пикселей и восприятия вредны для задачи заполнения пропусков в NeRF. В результате тщательных экспериментов наша методика демонстрирует лучшие результаты восстановления NeRF на различных сценах реального мира. Страница проекта: https://hubert0527.github.io/MALD-NeRF
English
Neural Radiance Field (NeRF) is a representation for 3D reconstruction from
multi-view images. Despite some recent work showing preliminary success in
editing a reconstructed NeRF with diffusion prior, they remain struggling to
synthesize reasonable geometry in completely uncovered regions. One major
reason is the high diversity of synthetic contents from the diffusion model,
which hinders the radiance field from converging to a crisp and deterministic
geometry. Moreover, applying latent diffusion models on real data often yields
a textural shift incoherent to the image condition due to auto-encoding errors.
These two problems are further reinforced with the use of pixel-distance
losses. To address these issues, we propose tempering the diffusion model's
stochasticity with per-scene customization and mitigating the textural shift
with masked adversarial training. During the analyses, we also found the
commonly used pixel and perceptual losses are harmful in the NeRF inpainting
task. Through rigorous experiments, our framework yields state-of-the-art NeRF
inpainting results on various real-world scenes. Project page:
https://hubert0527.github.io/MALD-NeRFSummary
AI-Generated Summary