ИДОЛ: Мгновенное создание фотореалистичного 3D-человека из одного изображения
IDOL: Instant Photorealistic 3D Human Creation from a Single Image
December 19, 2024
Авторы: Yiyu Zhuang, Jiaxi Lv, Hao Wen, Qing Shuai, Ailing Zeng, Hao Zhu, Shifeng Chen, Yujiu Yang, Xun Cao, Wei Liu
cs.AI
Аннотация
Создание высококачественного, анимируемого 3D-аватара полного тела из одного изображения представляет собой сложную задачу из-за разнообразного внешнего вида и поз человека, а также ограниченной доступности высококачественных обучающих данных. Для достижения быстрой и качественной реконструкции человека в данной работе переосмысливается задача с точки зрения набора данных, модели и представления. Во-первых, мы представляем крупномасштабный набор данных, ориентированный на человека, HuGe100K, состоящий из 100 тыс. разнообразных фотореалистичных наборов изображений людей. Каждый набор содержит 24-видовые кадры в конкретных позах человека, сгенерированные с использованием модели изображения в многовидовое изображение с управлением позой. Затем, используя разнообразие взглядов, поз и внешности внутри HuGe100K, мы разрабатываем масштабируемую модель преобразователя прямого распространения для прогнозирования трехмерного гауссова представления человека в равномерном пространстве из заданного изображения человека. Эта модель обучается разделять позу человека, форму тела, геометрию одежды и текстуру. Оцененные гауссианы могут быть анимированы без последующей обработки. Мы проводим комплексные эксперименты для проверки эффективности предложенного набора данных и метода. Наша модель демонстрирует способность эффективно реконструировать фотореалистичных людей с разрешением 1K из одного входного изображения, используя одну графическую карту мгновенно. Кроме того, она плавно поддерживает различные приложения, а также задачи редактирования формы и текстуры.
English
Creating a high-fidelity, animatable 3D full-body avatar from a single image
is a challenging task due to the diverse appearance and poses of humans and the
limited availability of high-quality training data. To achieve fast and
high-quality human reconstruction, this work rethinks the task from the
perspectives of dataset, model, and representation. First, we introduce a
large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K
diverse, photorealistic sets of human images. Each set contains 24-view frames
in specific human poses, generated using a pose-controllable
image-to-multi-view model. Next, leveraging the diversity in views, poses, and
appearances within HuGe100K, we develop a scalable feed-forward transformer
model to predict a 3D human Gaussian representation in a uniform space from a
given human image. This model is trained to disentangle human pose, body shape,
clothing geometry, and texture. The estimated Gaussians can be animated without
post-processing. We conduct comprehensive experiments to validate the
effectiveness of the proposed dataset and method. Our model demonstrates the
ability to efficiently reconstruct photorealistic humans at 1K resolution from
a single input image using a single GPU instantly. Additionally, it seamlessly
supports various applications, as well as shape and texture editing tasks.Summary
AI-Generated Summary