ChatPaper.aiChatPaper

360^circ Реконструкция из одного изображения с использованием пространственного вырезания и дорисовки

360^circ Reconstruction From a Single Image Using Space Carved Outpainting

September 19, 2023
Авторы: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI

Аннотация

Мы представляем POP3D — новый фреймворк, который создает полную 360-градусную 3D-модель из одного изображения. POP3D решает две ключевые проблемы, ограничивающие реконструкцию по одному виду. Во-первых, POP3D обеспечивает высокую обобщаемость для произвольных категорий, что было сложно достичь в предыдущих методах. Во-вторых, POP3D значительно улучшает точность и естественность реконструкции, что является важным аспектом, с которым не справляются современные аналоги. Наш подход объединяет преимущества четырех основных компонентов: (1) предсказатель монохромной глубины и нормалей, который предсказывает ключевые геометрические подсказки, (2) метод пространственного вырезания, способный обозначить потенциально невидимые части целевого объекта, (3) генеративная модель, предварительно обученная на большом наборе изображений, которая может достраивать невидимые области объекта, и (4) метод нейронной неявной реконструкции поверхностей, адаптированный для восстановления объектов с использованием RGB-изображений и монохромных геометрических подсказок. Сочетание этих компонентов позволяет POP3D легко обобщать данные для различных изображений из реального мира и создавать реконструкции, превосходящие современные аналоги с заметным отрывом. Страница проекта: http://cg.postech.ac.kr/research/POP3D.
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D model from a single image. POP3D resolves two prominent issues that limit the single-view reconstruction. Firstly, POP3D offers substantial generalizability to arbitrary categories, a trait that previous methods struggle to achieve. Secondly, POP3D further improves reconstruction fidelity and naturalness, a crucial aspect that concurrent works fall short of. Our approach marries the strengths of four primary components: (1) a monocular depth and normal predictor that serves to predict crucial geometric cues, (2) a space carving method capable of demarcating the potentially unseen portions of the target object, (3) a generative model pre-trained on a large-scale image dataset that can complete unseen regions of the target, and (4) a neural implicit surface reconstruction method tailored in reconstructing objects using RGB images along with monocular geometric cues. The combination of these components enables POP3D to readily generalize across various in-the-wild images and generate state-of-the-art reconstructions, outperforming similar works by a significant margin. Project page: http://cg.postech.ac.kr/research/POP3D
PDF61December 15, 2024