Приручение модели скрытой диффузии для восстановления нейронного поля радиантности.

Аннотация

Нейронное поле радиантности (NeRF) представляет собой метод реконструкции трехмерных объектов по многовидовым изображениям. Несмотря на некоторые недавние исследования, продемонстрировавшие начальный успех в редактировании восстановленного NeRF с использованием диффузионного априорного распределения, они все еще сталкиваются с проблемой синтеза разумной геометрии в полностью незакрытых областях. Одной из основных причин является высокая разнообразность синтетических контентов из модели диффузии, что мешает радиантному полю сходиться к четкой и детерминированной геометрии. Более того, применение латентных моделей диффузии к реальным данным часто приводит к текстурному сдвигу, несогласованному с изображением из-за ошибок автоэнкодирования. Эти две проблемы дополнительно усугубляются использованием потерь на основе пикселей. Для решения этих проблем мы предлагаем уменьшить стохастичность модели диффузии с помощью настройки для каждой сцены и смягчить текстурный сдвиг с помощью обучения с маскировкой адверсариальных примеров. В ходе анализа мы также обнаружили, что широко используемые потери на основе пикселей и восприятия вредны для задачи заполнения пропусков в NeRF. В результате тщательных экспериментов наша методика демонстрирует лучшие результаты восстановления NeRF на различных сценах реального мира. Страница проекта: https://hubert0527.github.io/MALD-NeRF

English

Neural Radiance Field (NeRF) is a representation for 3D reconstruction from multi-view images. Despite some recent work showing preliminary success in editing a reconstructed NeRF with diffusion prior, they remain struggling to synthesize reasonable geometry in completely uncovered regions. One major reason is the high diversity of synthetic contents from the diffusion model, which hinders the radiance field from converging to a crisp and deterministic geometry. Moreover, applying latent diffusion models on real data often yields a textural shift incoherent to the image condition due to auto-encoding errors. These two problems are further reinforced with the use of pixel-distance losses. To address these issues, we propose tempering the diffusion model's stochasticity with per-scene customization and mitigating the textural shift with masked adversarial training. During the analyses, we also found the commonly used pixel and perceptual losses are harmful in the NeRF inpainting task. Through rigorous experiments, our framework yields state-of-the-art NeRF inpainting results on various real-world scenes. Project page: https://hubert0527.github.io/MALD-NeRF

Приручение модели скрытой диффузии для восстановления нейронного поля радиантности.

Taming Latent Diffusion Model for Neural Radiance Field Inpainting

Аннотация

Support