IDOL: Directe Fotorealistische 3D Menscreatie vanuit een Enkele Afbeelding
IDOL: Instant Photorealistic 3D Human Creation from a Single Image
December 19, 2024
Auteurs: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI
Samenvatting
Het creëren van een hoogwaardige, animeerbare 3D full-body avatar uit een enkele afbeelding is een uitdagende taak vanwege de diverse verschijningen en poses van mensen en de beperkte beschikbaarheid van hoogwaardige trainingsgegevens. Om snelle en hoogwaardige menselijke reconstructie te bereiken, heroverweegt dit werk de taak vanuit de perspectieven van dataset, model en representatie. Allereerst introduceren we een grootschalige door mensen gecentreerde gegenereerde dataset, HuGe100K, bestaande uit 100K diverse, fotorealistische sets van menselijke afbeeldingen. Elke set bevat 24-weergave frames in specifieke menselijke poses, gegenereerd met behulp van een pose-bestuurbaar beeld-naar-multi-weergave model. Vervolgens, gebruikmakend van de diversiteit in weergaven, poses en verschijningen binnen HuGe100K, ontwikkelen we een schaalbaar feedforward transformer model om een 3D menselijke Gaussische representatie in een uniforme ruimte te voorspellen vanuit een gegeven menselijke afbeelding. Dit model is getraind om menselijke pose, lichaamsvorm, kledinggeometrie en textuur te ontwarren. De geschatte Gaussians kunnen geanimeerd worden zonder post-processing. We voeren uitgebreide experimenten uit om de effectiviteit van de voorgestelde dataset en methode te valideren. Ons model toont de mogelijkheid om efficiënt fotorealistische mensen te reconstrueren op 1K resolutie vanuit een enkele invoerafbeelding met behulp van een enkele GPU direct. Bovendien ondersteunt het naadloos diverse toepassingen, evenals vorm- en textuurbewerkingstaken.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image
is a challenging task due to the diverse appearance and poses of humans and the
limited availability of high-quality training data. To achieve fast and
high-quality human reconstruction, this work rethinks the task from the
perspectives of dataset, model, and representation. First, we introduce a
large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K
diverse, photorealistic sets of human images. Each set contains 24-view frames
in specific human poses, generated using a pose-controllable
image-to-multi-view model. Next, leveraging the diversity in views, poses, and
appearances within HuGe100K, we develop a scalable feed-forward transformer
model to predict a 3D human Gaussian representation in a uniform space from a
given human image. This model is trained to disentangle human pose, body shape,
clothing geometry, and texture. The estimated Gaussians can be animated without
post-processing. We conduct comprehensive experiments to validate the
effectiveness of the proposed dataset and method. Our model demonstrates the
ability to efficiently reconstruct photorealistic humans at 1K resolution from
a single input image using a single GPU instantly. Additionally, it seamlessly
supports various applications, as well as shape and texture editing tasks.