360^circ Реконструкция из одного изображения с использованием пространственного вырезания и дорисовки
360^circ Reconstruction From a Single Image Using Space Carved Outpainting
September 19, 2023
Авторы: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI
Аннотация
Мы представляем POP3D — новый фреймворк, который создает полную 360-градусную 3D-модель из одного изображения. POP3D решает две ключевые проблемы, ограничивающие реконструкцию по одному виду. Во-первых, POP3D обеспечивает высокую обобщаемость для произвольных категорий, что было сложно достичь в предыдущих методах. Во-вторых, POP3D значительно улучшает точность и естественность реконструкции, что является важным аспектом, с которым не справляются современные аналоги. Наш подход объединяет преимущества четырех основных компонентов: (1) предсказатель монохромной глубины и нормалей, который предсказывает ключевые геометрические подсказки, (2) метод пространственного вырезания, способный обозначить потенциально невидимые части целевого объекта, (3) генеративная модель, предварительно обученная на большом наборе изображений, которая может достраивать невидимые области объекта, и (4) метод нейронной неявной реконструкции поверхностей, адаптированный для восстановления объектов с использованием RGB-изображений и монохромных геометрических подсказок. Сочетание этих компонентов позволяет POP3D легко обобщать данные для различных изображений из реального мира и создавать реконструкции, превосходящие современные аналоги с заметным отрывом. Страница проекта: http://cg.postech.ac.kr/research/POP3D.
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D
model from a single image. POP3D resolves two prominent issues that limit the
single-view reconstruction. Firstly, POP3D offers substantial generalizability
to arbitrary categories, a trait that previous methods struggle to achieve.
Secondly, POP3D further improves reconstruction fidelity and naturalness, a
crucial aspect that concurrent works fall short of. Our approach marries the
strengths of four primary components: (1) a monocular depth and normal
predictor that serves to predict crucial geometric cues, (2) a space carving
method capable of demarcating the potentially unseen portions of the target
object, (3) a generative model pre-trained on a large-scale image dataset that
can complete unseen regions of the target, and (4) a neural implicit surface
reconstruction method tailored in reconstructing objects using RGB images along
with monocular geometric cues. The combination of these components enables
POP3D to readily generalize across various in-the-wild images and generate
state-of-the-art reconstructions, outperforming similar works by a significant
margin. Project page: http://cg.postech.ac.kr/research/POP3D