Цифровизация 3D-моделей человека на основе одного изображения с использованием крупных моделей реконструкции
Single-View 3D Human Digitalization with Large Reconstruction Models
January 22, 2024
Авторы: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
cs.AI
Аннотация
В данной статье мы представляем Human-LRM — одноэтапную прямую модель крупномасштабной реконструкции, предназначенную для предсказания нейронных полей излучения (NeRF) человека по одному изображению. Наш подход демонстрирует выдающуюся адаптивность при обучении на обширных наборах данных, содержащих 3D-сканы и съемку с нескольких ракурсов. Кроме того, чтобы повысить применимость модели в реальных условиях, особенно при наличии окклюзий, мы предлагаем новую стратегию, которая преобразует реконструкцию с нескольких ракурсов в однокадровую с использованием условной диффузионной модели на основе триплоскостей. Это генеративное расширение учитывает естественные вариации форм человеческого тела при наблюдении с одного ракурса и позволяет восстанавливать полное тело человека даже из изображения с окклюзиями. В ходе многочисленных экспериментов мы показываем, что Human-LRM значительно превосходит предыдущие методы на нескольких бенчмарках.
English
In this paper, we introduce Human-LRM, a single-stage feed-forward Large
Reconstruction Model designed to predict human Neural Radiance Fields (NeRF)
from a single image. Our approach demonstrates remarkable adaptability in
training using extensive datasets containing 3D scans and multi-view capture.
Furthermore, to enhance the model's applicability for in-the-wild scenarios
especially with occlusions, we propose a novel strategy that distills
multi-view reconstruction into single-view via a conditional triplane diffusion
model. This generative extension addresses the inherent variations in human
body shapes when observed from a single view, and makes it possible to
reconstruct the full body human from an occluded image. Through extensive
experiments, we show that Human-LRM surpasses previous methods by a significant
margin on several benchmarks.