ChatPaper.aiChatPaper

NeRFiller: Восполнение сцен с помощью генеративного 3D-заполнения

NeRFiller: Completing Scenes via Generative 3D Inpainting

December 7, 2023
Авторы: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI

Аннотация

Мы представляем NeRFiller — подход для заполнения недостающих частей 3D-сцены с помощью генеративного 3D-восстановления, использующего готовые 2D-визуальные генеративные модели. Часто части захваченной 3D-сцены или объекта отсутствуют из-за ошибок реконструкции сетки или недостатка наблюдений (например, контактные области, такие как нижняя часть объектов, или труднодоступные зоны). Мы решаем эту сложную задачу 3D-восстановления, используя модель диффузионного восстановления для 2D-изображений. Мы обнаружили удивительное свойство этих моделей: они генерируют более 3D-согласованные восстановления, когда изображения образуют сетку 2×2, и показываем, как обобщить это поведение на более чем четыре изображения. Затем мы представляем итеративную структуру для объединения этих восстановленных областей в единую согласованную 3D-сцену. В отличие от связанных работ, мы сосредоточены на завершении сцен, а не на удалении объектов переднего плана, и наш подход не требует точных 2D-масок объектов или текста. Мы сравниваем наш подход с релевантными базовыми методами, адаптированными к нашей задаче, на различных сценах, где NeRFiller создает наиболее 3D-согласованные и правдоподобные завершения сцен. Страница проекта доступна по адресу https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D capture via generative 3D inpainting using off-the-shelf 2D visual generative models. Often parts of a captured 3D scene or object are missing due to mesh reconstruction failures or a lack of observations (e.g., contact regions, such as the bottom of objects, or hard-to-reach areas). We approach this challenging 3D inpainting problem by leveraging a 2D inpainting diffusion model. We identify a surprising behavior of these models, where they generate more 3D consistent inpaints when images form a 2times2 grid, and show how to generalize this behavior to more than four images. We then present an iterative framework to distill these inpainted regions into a single consistent 3D scene. In contrast to related works, we focus on completing scenes rather than deleting foreground objects, and our approach does not require tight 2D object masks or text. We compare our approach to relevant baselines adapted to our setting on a variety of scenes, where NeRFiller creates the most 3D consistent and plausible scene completions. Our project page is at https://ethanweber.me/nerfiller.
PDF120December 15, 2024