NeRFiller: Восполнение сцен с помощью генеративного 3D-заполнения
NeRFiller: Completing Scenes via Generative 3D Inpainting
December 7, 2023
Авторы: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI
Аннотация
Мы представляем NeRFiller — подход для заполнения недостающих частей 3D-сцены с помощью генеративного 3D-восстановления, использующего готовые 2D-визуальные генеративные модели. Часто части захваченной 3D-сцены или объекта отсутствуют из-за ошибок реконструкции сетки или недостатка наблюдений (например, контактные области, такие как нижняя часть объектов, или труднодоступные зоны). Мы решаем эту сложную задачу 3D-восстановления, используя модель диффузионного восстановления для 2D-изображений. Мы обнаружили удивительное свойство этих моделей: они генерируют более 3D-согласованные восстановления, когда изображения образуют сетку 2×2, и показываем, как обобщить это поведение на более чем четыре изображения. Затем мы представляем итеративную структуру для объединения этих восстановленных областей в единую согласованную 3D-сцену. В отличие от связанных работ, мы сосредоточены на завершении сцен, а не на удалении объектов переднего плана, и наш подход не требует точных 2D-масок объектов или текста. Мы сравниваем наш подход с релевантными базовыми методами, адаптированными к нашей задаче, на различных сценах, где NeRFiller создает наиболее 3D-согласованные и правдоподобные завершения сцен. Страница проекта доступна по адресу https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D
capture via generative 3D inpainting using off-the-shelf 2D visual generative
models. Often parts of a captured 3D scene or object are missing due to mesh
reconstruction failures or a lack of observations (e.g., contact regions, such
as the bottom of objects, or hard-to-reach areas). We approach this challenging
3D inpainting problem by leveraging a 2D inpainting diffusion model. We
identify a surprising behavior of these models, where they generate more 3D
consistent inpaints when images form a 2times2 grid, and show how to
generalize this behavior to more than four images. We then present an iterative
framework to distill these inpainted regions into a single consistent 3D scene.
In contrast to related works, we focus on completing scenes rather than
deleting foreground objects, and our approach does not require tight 2D object
masks or text. We compare our approach to relevant baselines adapted to our
setting on a variety of scenes, where NeRFiller creates the most 3D consistent
and plausible scene completions. Our project page is at
https://ethanweber.me/nerfiller.