Трехмерная оцифровка человека по одному изображению с использованием диффузии, управляемой формой
Single-Image 3D Human Digitization with Shape-Guided Diffusion
November 15, 2023
Авторы: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI
Аннотация
Мы представляем подход для генерации 360-градусного вида человека с согласованным и высоким разрешением на основе одного входного изображения. Методы, такие как NeRF и его варианты, обычно требуют видео или изображений с разных точек зрения. Большинство существующих подходов, использующих монохромный вход, либо полагаются на эталонные 3D-сканы для обучения, либо не обеспечивают 3D-согласованности. Хотя современные 3D-генеративные модели демонстрируют потенциал для создания 3D-согласованных цифровых моделей человека, эти подходы плохо обобщаются на разнообразные виды одежды, а результаты лишены фотореализма. В отличие от существующих работ, мы используем высокопроизводительные 2D-диффузионные модели, предварительно обученные для задач общего синтеза изображений, в качестве априорного представления внешнего вида одетых людей. Для достижения лучшей 3D-согласованности при сохранении идентичности входного изображения мы постепенно синтезируем несколько видов человека на основе входного изображения, восстанавливая недостающие области с помощью диффузии, управляемой формой и обусловленной силуэтом и нормалями поверхности. Затем мы объединяем эти синтезированные многовидовые изображения с помощью обратного рендеринга, чтобы получить полностью текстурированную высококачественную 3D-модель заданного человека. Эксперименты показывают, что наш подход превосходит предыдущие методы и обеспечивает фотореалистичный синтез 360-градусного вида для широкого спектра одетых людей со сложными текстурами на основе одного изображения.
English
We present an approach to generate a 360-degree view of a person with a
consistent, high-resolution appearance from a single input image. NeRF and its
variants typically require videos or images from different viewpoints. Most
existing approaches taking monocular input either rely on ground-truth 3D scans
for supervision or lack 3D consistency. While recent 3D generative models show
promise of 3D consistent human digitization, these approaches do not generalize
well to diverse clothing appearances, and the results lack photorealism. Unlike
existing work, we utilize high-capacity 2D diffusion models pretrained for
general image synthesis tasks as an appearance prior of clothed humans. To
achieve better 3D consistency while retaining the input identity, we
progressively synthesize multiple views of the human in the input image by
inpainting missing regions with shape-guided diffusion conditioned on
silhouette and surface normal. We then fuse these synthesized multi-view images
via inverse rendering to obtain a fully textured high-resolution 3D mesh of the
given person. Experiments show that our approach outperforms prior methods and
achieves photorealistic 360-degree synthesis of a wide range of clothed humans
with complex textures from a single image.