ChatPaper.aiChatPaper

IDOL: Creación instantánea de humanos en 3D fotorrealistas a partir de una sola imagen

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

December 19, 2024
Autores: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI

Resumen

Crear un avatar 3D de cuerpo completo altamente fiel y animable a partir de una sola imagen es una tarea desafiante debido a la diversidad de apariencias y poses humanas, así como a la limitada disponibilidad de datos de entrenamiento de alta calidad. Para lograr una reconstrucción humana rápida y de alta calidad, este trabajo replantea la tarea desde las perspectivas del conjunto de datos, el modelo y la representación. En primer lugar, presentamos un conjunto de datos generado centrado en humanos a gran escala, HuGe100K, que consta de 100K conjuntos diversos y fotorrealistas de imágenes humanas. Cada conjunto contiene fotogramas de 24 vistas en poses humanas específicas, generadas utilizando un modelo de imagen a múltiples vistas controlado por poses. Aprovechando la diversidad en vistas, poses y apariencias dentro de HuGe100K, desarrollamos un modelo transformador de avance rápido escalable para predecir una representación gaussiana humana en 3D en un espacio uniforme a partir de una imagen humana dada. Este modelo se entrena para desentrañar la pose humana, la forma del cuerpo, la geometría de la ropa y la textura. Las gaussianas estimadas pueden ser animadas sin procesamiento posterior. Realizamos experimentos exhaustivos para validar la efectividad del conjunto de datos y del método propuesto. Nuestro modelo demuestra la capacidad de reconstruir eficientemente humanos fotorrealistas a una resolución de 1K a partir de una sola imagen de entrada utilizando una sola GPU al instante. Además, admite de manera fluida diversas aplicaciones, así como tareas de edición de forma y textura.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image is a challenging task due to the diverse appearance and poses of humans and the limited availability of high-quality training data. To achieve fast and high-quality human reconstruction, this work rethinks the task from the perspectives of dataset, model, and representation. First, we introduce a large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K diverse, photorealistic sets of human images. Each set contains 24-view frames in specific human poses, generated using a pose-controllable image-to-multi-view model. Next, leveraging the diversity in views, poses, and appearances within HuGe100K, we develop a scalable feed-forward transformer model to predict a 3D human Gaussian representation in a uniform space from a given human image. This model is trained to disentangle human pose, body shape, clothing geometry, and texture. The estimated Gaussians can be animated without post-processing. We conduct comprehensive experiments to validate the effectiveness of the proposed dataset and method. Our model demonstrates the ability to efficiently reconstruct photorealistic humans at 1K resolution from a single input image using a single GPU instantly. Additionally, it seamlessly supports various applications, as well as shape and texture editing tasks.

Summary

AI-Generated Summary

PDF62December 23, 2024