ChatPaper.aiChatPaper

IDOL: Sofortige fotorealistische 3D-Menschenerstellung aus einem einzigen Bild

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

December 19, 2024
Autoren: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI

Zusammenfassung

Die Erstellung eines hochwertigen, animierbaren 3D-Ganzkörper-Avatars aus einem einzigen Bild ist eine anspruchsvolle Aufgabe aufgrund der vielfältigen Erscheinungsbilder und Posen von Menschen sowie der begrenzten Verfügbarkeit von hochwertigen Trainingsdaten. Um eine schnelle und hochwertige Rekonstruktion von Menschen zu erreichen, überdenkt diese Arbeit die Aufgabe aus den Perspektiven des Datensatzes, des Modells und der Repräsentation. Zunächst stellen wir einen umfangreichen, menschenzentrierten generierten Datensatz, HuGe100K, vor, der aus 100.000 verschiedenen, fotorealistischen Sätzen von menschlichen Bildern besteht. Jeder Satz enthält 24 Ansichtsrahmen in spezifischen menschlichen Posen, die mithilfe eines posesteuerbaren Bild-zu-Mehr-Ansichts-Modells generiert wurden. Anschließend nutzen wir die Vielfalt an Ansichten, Posen und Erscheinungsbildern innerhalb von HuGe100K und entwickeln ein skalierbares Feedforward-Transformer-Modell, um eine 3D-menschliche Gaußsche Repräsentation in einem einheitlichen Raum aus einem gegebenen menschlichen Bild vorherzusagen. Dieses Modell ist darauf trainiert, menschliche Pose, Körperform, Kleidungsgeometrie und Textur zu entwirren. Die geschätzten Gaußschen können ohne Nachbearbeitung animiert werden. Wir führen umfassende Experimente durch, um die Wirksamkeit des vorgeschlagenen Datensatzes und der Methode zu validieren. Unser Modell zeigt die Fähigkeit, fotorealistische Menschen mit einer Auflösung von 1K aus einem einzelnen Eingabebild effizient mit einer einzigen GPU sofort zu rekonstruieren. Darüber hinaus unterstützt es nahtlos verschiedene Anwendungen sowie Form- und Textur-Editieraufgaben.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image is a challenging task due to the diverse appearance and poses of humans and the limited availability of high-quality training data. To achieve fast and high-quality human reconstruction, this work rethinks the task from the perspectives of dataset, model, and representation. First, we introduce a large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K diverse, photorealistic sets of human images. Each set contains 24-view frames in specific human poses, generated using a pose-controllable image-to-multi-view model. Next, leveraging the diversity in views, poses, and appearances within HuGe100K, we develop a scalable feed-forward transformer model to predict a 3D human Gaussian representation in a uniform space from a given human image. This model is trained to disentangle human pose, body shape, clothing geometry, and texture. The estimated Gaussians can be animated without post-processing. We conduct comprehensive experiments to validate the effectiveness of the proposed dataset and method. Our model demonstrates the ability to efficiently reconstruct photorealistic humans at 1K resolution from a single input image using a single GPU instantly. Additionally, it seamlessly supports various applications, as well as shape and texture editing tasks.

Summary

AI-Generated Summary

PDF62December 23, 2024