ИДОЛ: Мгновенное создание фотореалистичного 3D-человека из одного изображения

Аннотация

Создание высококачественного, анимируемого 3D-аватара полного тела из одного изображения представляет собой сложную задачу из-за разнообразного внешнего вида и поз человека, а также ограниченной доступности высококачественных обучающих данных. Для достижения быстрой и качественной реконструкции человека в данной работе переосмысливается задача с точки зрения набора данных, модели и представления. Во-первых, мы представляем крупномасштабный набор данных, ориентированный на человека, HuGe100K, состоящий из 100 тыс. разнообразных фотореалистичных наборов изображений людей. Каждый набор содержит 24-видовые кадры в конкретных позах человека, сгенерированные с использованием модели изображения в многовидовое изображение с управлением позой. Затем, используя разнообразие взглядов, поз и внешности внутри HuGe100K, мы разрабатываем масштабируемую модель преобразователя прямого распространения для прогнозирования трехмерного гауссова представления человека в равномерном пространстве из заданного изображения человека. Эта модель обучается разделять позу человека, форму тела, геометрию одежды и текстуру. Оцененные гауссианы могут быть анимированы без последующей обработки. Мы проводим комплексные эксперименты для проверки эффективности предложенного набора данных и метода. Наша модель демонстрирует способность эффективно реконструировать фотореалистичных людей с разрешением 1K из одного входного изображения, используя одну графическую карту мгновенно. Кроме того, она плавно поддерживает различные приложения, а также задачи редактирования формы и текстуры.

English

Creating a high-fidelity, animatable 3D full-body avatar from a single image is a challenging task due to the diverse appearance and poses of humans and the limited availability of high-quality training data. To achieve fast and high-quality human reconstruction, this work rethinks the task from the perspectives of dataset, model, and representation. First, we introduce a large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K diverse, photorealistic sets of human images. Each set contains 24-view frames in specific human poses, generated using a pose-controllable image-to-multi-view model. Next, leveraging the diversity in views, poses, and appearances within HuGe100K, we develop a scalable feed-forward transformer model to predict a 3D human Gaussian representation in a uniform space from a given human image. This model is trained to disentangle human pose, body shape, clothing geometry, and texture. The estimated Gaussians can be animated without post-processing. We conduct comprehensive experiments to validate the effectiveness of the proposed dataset and method. Our model demonstrates the ability to efficiently reconstruct photorealistic humans at 1K resolution from a single input image using a single GPU instantly. Additionally, it seamlessly supports various applications, as well as shape and texture editing tasks.

ИДОЛ: Мгновенное создание фотореалистичного 3D-человека из одного изображения

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

Аннотация

Support