Синтез движущихся людей с 3D-контролем
Synthesizing Moving People with 3D Control
January 19, 2024
Авторы: Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
cs.AI
Аннотация
В данной статье мы представляем основанный на диффузионной модели фреймворк для анимации людей из одного изображения с учетом заданной последовательности 3D движений. Наш подход состоит из двух ключевых компонентов: а) обучение априорных знаний о невидимых частях тела человека и одежды и б) рендеринг новых поз тела с корректной одеждой и текстурой. Для первой части мы обучаем диффузионную модель для заполнения, которая генерирует невидимые части человека на основе одного изображения. Мы обучаем эту модель в пространстве текстурных карт, что делает её более эффективной с точки зрения выборки, поскольку она инвариантна к позе и углу обзора. Во-вторых, мы разрабатываем диффузионный конвейер рендеринга, управляемый 3D позами человека. Это позволяет создавать реалистичные изображения новых поз человека, включая одежду, волосы и правдоподобное заполнение невидимых областей. Такой разделенный подход позволяет нашему методу генерировать последовательность изображений, которые соответствуют целевым движениям в 3D позе и визуально схожи с исходным изображением. Кроме того, управление в 3D позволяет использовать различные синтетические траектории камеры для рендеринга человека. Наши эксперименты показывают, что наш метод устойчив в генерации продолжительных движений и разнообразных сложных поз по сравнению с предыдущими методами. Подробности можно найти на нашем сайте: https://boyiliee.github.io/3DHM.github.io/.
English
In this paper, we present a diffusion model-based framework for animating
people from a single image for a given target 3D motion sequence. Our approach
has two core components: a) learning priors about invisible parts of the human
body and clothing, and b) rendering novel body poses with proper clothing and
texture. For the first part, we learn an in-filling diffusion model to
hallucinate unseen parts of a person given a single image. We train this model
on texture map space, which makes it more sample-efficient since it is
invariant to pose and viewpoint. Second, we develop a diffusion-based rendering
pipeline, which is controlled by 3D human poses. This produces realistic
renderings of novel poses of the person, including clothing, hair, and
plausible in-filling of unseen regions. This disentangled approach allows our
method to generate a sequence of images that are faithful to the target motion
in the 3D pose and, to the input image in terms of visual similarity. In
addition to that, the 3D control allows various synthetic camera trajectories
to render a person. Our experiments show that our method is resilient in
generating prolonged motions and varied challenging and complex poses compared
to prior methods. Please check our website for more details:
https://boyiliee.github.io/3DHM.github.io/.