IDOL : Création instantanée de personnages humains 3D photoréalistes à partir d'une seule image
IDOL: Instant Photorealistic 3D Human Creation from a Single Image
December 19, 2024
Auteurs: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI
Résumé
Créer un avatar 3D animable en corps entier à haute fidélité à partir d'une seule image est une tâche complexe en raison de l'apparence et des poses variées des humains, ainsi que de la disponibilité limitée de données d'entraînement de haute qualité. Pour parvenir à une reconstruction humaine rapide et de haute qualité, ce travail repense la tâche du point de vue de l'ensemble de données, du modèle et de la représentation. Tout d'abord, nous introduisons un ensemble de données généré centré sur l'humain à grande échelle, HuGe100K, composé de 100 000 ensembles divers d'images humaines photoréalistes. Chaque ensemble contient des images de 24 vues dans des poses humaines spécifiques, générées à l'aide d'un modèle d'image à plusieurs vues contrôlable par la pose. Ensuite, en exploitant la diversité des points de vue, des poses et des apparences au sein de HuGe100K, nous développons un modèle de transformateur feed-forward évolutif pour prédire une représentation humaine 3D gaussienne dans un espace uniforme à partir d'une image humaine donnée. Ce modèle est entraîné à démêler la pose humaine, la forme du corps, la géométrie des vêtements et la texture. Les gaussiennes estimées peuvent être animées sans post-traitement. Nous menons des expériences approfondies pour valider l'efficacité de l'ensemble de données et de la méthode proposée. Notre modèle démontre la capacité de reconstruire efficacement des humains photoréalistes en résolution 1K à partir d'une seule image d'entrée en utilisant une seule GPU instantanément. De plus, il prend en charge de manière transparente diverses applications, ainsi que des tâches d'édition de forme et de texture.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image
is a challenging task due to the diverse appearance and poses of humans and the
limited availability of high-quality training data. To achieve fast and
high-quality human reconstruction, this work rethinks the task from the
perspectives of dataset, model, and representation. First, we introduce a
large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K
diverse, photorealistic sets of human images. Each set contains 24-view frames
in specific human poses, generated using a pose-controllable
image-to-multi-view model. Next, leveraging the diversity in views, poses, and
appearances within HuGe100K, we develop a scalable feed-forward transformer
model to predict a 3D human Gaussian representation in a uniform space from a
given human image. This model is trained to disentangle human pose, body shape,
clothing geometry, and texture. The estimated Gaussians can be animated without
post-processing. We conduct comprehensive experiments to validate the
effectiveness of the proposed dataset and method. Our model demonstrates the
ability to efficiently reconstruct photorealistic humans at 1K resolution from
a single input image using a single GPU instantly. Additionally, it seamlessly
supports various applications, as well as shape and texture editing tasks.Summary
AI-Generated Summary