ChatPaper.aiChatPaper

IDOL : Création instantanée de personnages humains 3D photoréalistes à partir d'une seule image

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

December 19, 2024
Auteurs: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI

Résumé

Créer un avatar 3D animable en corps entier à haute fidélité à partir d'une seule image est une tâche complexe en raison de l'apparence et des poses variées des humains, ainsi que de la disponibilité limitée de données d'entraînement de haute qualité. Pour parvenir à une reconstruction humaine rapide et de haute qualité, ce travail repense la tâche du point de vue de l'ensemble de données, du modèle et de la représentation. Tout d'abord, nous introduisons un ensemble de données généré centré sur l'humain à grande échelle, HuGe100K, composé de 100 000 ensembles divers d'images humaines photoréalistes. Chaque ensemble contient des images de 24 vues dans des poses humaines spécifiques, générées à l'aide d'un modèle d'image à plusieurs vues contrôlable par la pose. Ensuite, en exploitant la diversité des points de vue, des poses et des apparences au sein de HuGe100K, nous développons un modèle de transformateur feed-forward évolutif pour prédire une représentation humaine 3D gaussienne dans un espace uniforme à partir d'une image humaine donnée. Ce modèle est entraîné à démêler la pose humaine, la forme du corps, la géométrie des vêtements et la texture. Les gaussiennes estimées peuvent être animées sans post-traitement. Nous menons des expériences approfondies pour valider l'efficacité de l'ensemble de données et de la méthode proposée. Notre modèle démontre la capacité de reconstruire efficacement des humains photoréalistes en résolution 1K à partir d'une seule image d'entrée en utilisant une seule GPU instantanément. De plus, il prend en charge de manière transparente diverses applications, ainsi que des tâches d'édition de forme et de texture.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image is a challenging task due to the diverse appearance and poses of humans and the limited availability of high-quality training data. To achieve fast and high-quality human reconstruction, this work rethinks the task from the perspectives of dataset, model, and representation. First, we introduce a large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K diverse, photorealistic sets of human images. Each set contains 24-view frames in specific human poses, generated using a pose-controllable image-to-multi-view model. Next, leveraging the diversity in views, poses, and appearances within HuGe100K, we develop a scalable feed-forward transformer model to predict a 3D human Gaussian representation in a uniform space from a given human image. This model is trained to disentangle human pose, body shape, clothing geometry, and texture. The estimated Gaussians can be animated without post-processing. We conduct comprehensive experiments to validate the effectiveness of the proposed dataset and method. Our model demonstrates the ability to efficiently reconstruct photorealistic humans at 1K resolution from a single input image using a single GPU instantly. Additionally, it seamlessly supports various applications, as well as shape and texture editing tasks.

Summary

AI-Generated Summary

PDF62December 23, 2024