ObjFiller-3D: Согласованное 3D-восстановление на основе мультивью с использованием моделей диффузии видео

Аннотация

3D-инпейнтинг часто опирается на многовидовой 2D-инпейнтинг изображений, где присущие несоответствия между различными восстановленными видами могут приводить к размытым текстурам, пространственным разрывам и визуальным артефактам, отвлекающим внимание. Эти несоответствия представляют значительные трудности при стремлении к точному и реалистичному завершению 3D-объектов, особенно в приложениях, требующих высокой точности и структурной согласованности. Чтобы преодолеть эти ограничения, мы предлагаем ObjFiller-3D — новый метод, предназначенный для завершения и редактирования высококачественных и согласованных 3D-объектов. Вместо использования традиционной модели 2D-инпейнтинга изображений наш подход использует тщательно отобранную модель редактирования видео для заполнения замаскированных областей 3D-объектов. Мы анализируем разрыв в представлении между 3D и видео и предлагаем адаптацию модели инпейнтинга видео для инпейнтинга 3D-сцен. Кроме того, мы вводим метод 3D-инпейнтинга на основе референсов для дальнейшего повышения качества реконструкции. Эксперименты на различных наборах данных показывают, что по сравнению с предыдущими методами ObjFiller-3D обеспечивает более точные и детализированные реконструкции (PSNR 26.6 против 15.9 у NeRFiller и LPIPS 0.19 против 0.25 у Instant3dit). Более того, он демонстрирует значительный потенциал для практического применения в реальных задачах редактирования 3D. Страница проекта: https://objfiller3d.github.io/ Код: https://github.com/objfiller3d/ObjFiller-3D.

English

3D inpainting often relies on multi-view 2D image inpainting, where the inherent inconsistencies across different inpainted views can result in blurred textures, spatial discontinuities, and distracting visual artifacts. These inconsistencies pose significant challenges when striving for accurate and realistic 3D object completion, particularly in applications that demand high fidelity and structural coherence. To overcome these limitations, we propose ObjFiller-3D, a novel method designed for the completion and editing of high-quality and consistent 3D objects. Instead of employing a conventional 2D image inpainting model, our approach leverages a curated selection of state-of-the-art video editing model to fill in the masked regions of 3D objects. We analyze the representation gap between 3D and videos, and propose an adaptation of a video inpainting model for 3D scene inpainting. In addition, we introduce a reference-based 3D inpainting method to further enhance the quality of reconstruction. Experiments across diverse datasets show that compared to previous methods, ObjFiller-3D produces more faithful and fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of 0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for practical deployment in real-world 3D editing applications. Project page: https://objfiller3d.github.io/ Code: https://github.com/objfiller3d/ObjFiller-3D .

ObjFiller-3D: Согласованное 3D-восстановление на основе мультивью с использованием моделей диффузии видео

ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models

Аннотация

Support