Synthétiser des personnages en mouvement avec un contrôle 3D
Synthesizing Moving People with 3D Control
January 19, 2024
Auteurs: Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
cs.AI
Résumé
Dans cet article, nous présentons un cadre basé sur un modèle de diffusion pour animer des personnes à partir d'une seule image en fonction d'une séquence de mouvements 3D cible. Notre approche repose sur deux composants principaux : a) l'apprentissage de connaissances a priori sur les parties invisibles du corps humain et des vêtements, et b) le rendu de nouvelles poses corporelles avec des vêtements et des textures appropriés. Pour la première partie, nous apprenons un modèle de diffusion de remplissage pour halluciner les parties non visibles d'une personne à partir d'une seule image. Nous entraînons ce modèle dans l'espace des cartes de textures, ce qui le rend plus efficace en termes d'échantillonnage car il est invariant à la pose et au point de vue. Ensuite, nous développons un pipeline de rendu basé sur la diffusion, contrôlé par des poses humaines 3D. Cela produit des rendus réalistes de nouvelles poses de la personne, incluant les vêtements, les cheveux et un remplissage plausible des régions non visibles. Cette approche désentrelacée permet à notre méthode de générer une séquence d'images fidèles au mouvement cible en termes de pose 3D et à l'image d'entrée en termes de similarité visuelle. De plus, le contrôle 3D permet d'utiliser diverses trajectoires de caméra synthétiques pour rendre une personne. Nos expériences montrent que notre méthode est robuste pour générer des mouvements prolongés et des poses variées, complexes et difficiles, par rapport aux méthodes antérieures. Pour plus de détails, consultez notre site web : https://boyiliee.github.io/3DHM.github.io/.
English
In this paper, we present a diffusion model-based framework for animating
people from a single image for a given target 3D motion sequence. Our approach
has two core components: a) learning priors about invisible parts of the human
body and clothing, and b) rendering novel body poses with proper clothing and
texture. For the first part, we learn an in-filling diffusion model to
hallucinate unseen parts of a person given a single image. We train this model
on texture map space, which makes it more sample-efficient since it is
invariant to pose and viewpoint. Second, we develop a diffusion-based rendering
pipeline, which is controlled by 3D human poses. This produces realistic
renderings of novel poses of the person, including clothing, hair, and
plausible in-filling of unseen regions. This disentangled approach allows our
method to generate a sequence of images that are faithful to the target motion
in the 3D pose and, to the input image in terms of visual similarity. In
addition to that, the 3D control allows various synthetic camera trajectories
to render a person. Our experiments show that our method is resilient in
generating prolonged motions and varied challenging and complex poses compared
to prior methods. Please check our website for more details:
https://boyiliee.github.io/3DHM.github.io/.