Sintetizzare Persone in Movimento con Controllo 3D
Synthesizing Moving People with 3D Control
January 19, 2024
Autori: Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
cs.AI
Abstract
In questo articolo, presentiamo un framework basato su modelli di diffusione per animare persone a partire da una singola immagine, seguendo una sequenza di movimento 3D target. Il nostro approccio si compone di due elementi principali: a) l'apprendimento di prior riguardanti le parti invisibili del corpo umano e degli indumenti, e b) il rendering di nuove pose del corpo con indumenti e texture appropriati. Per la prima parte, apprendiamo un modello di diffusione di riempimento per immaginare le parti non visibili di una persona data una singola immagine. Addestriamo questo modello nello spazio delle mappe di texture, il che lo rende più efficiente in termini di campionamento poiché è invariante rispetto alla posa e al punto di vista. In secondo luogo, sviluppiamo una pipeline di rendering basata sulla diffusione, controllata da pose umane 3D. Questo produce rendering realistici di nuove pose della persona, inclusi indumenti, capelli e un riempimento plausibile delle regioni non visibili. Questo approccio disaccoppiato consente al nostro metodo di generare una sequenza di immagini fedeli al movimento target nella posa 3D e all'immagine di input in termini di somiglianza visiva. Inoltre, il controllo 3D permette varie traiettorie sintetiche della telecamera per rendere una persona. I nostri esperimenti dimostrano che il nostro metodo è resiliente nella generazione di movimenti prolungati e di pose complesse e sfidanti rispetto ai metodi precedenti. Per maggiori dettagli, consultate il nostro sito web: https://boyiliee.github.io/3DHM.github.io/.
English
In this paper, we present a diffusion model-based framework for animating
people from a single image for a given target 3D motion sequence. Our approach
has two core components: a) learning priors about invisible parts of the human
body and clothing, and b) rendering novel body poses with proper clothing and
texture. For the first part, we learn an in-filling diffusion model to
hallucinate unseen parts of a person given a single image. We train this model
on texture map space, which makes it more sample-efficient since it is
invariant to pose and viewpoint. Second, we develop a diffusion-based rendering
pipeline, which is controlled by 3D human poses. This produces realistic
renderings of novel poses of the person, including clothing, hair, and
plausible in-filling of unseen regions. This disentangled approach allows our
method to generate a sequence of images that are faithful to the target motion
in the 3D pose and, to the input image in terms of visual similarity. In
addition to that, the 3D control allows various synthetic camera trajectories
to render a person. Our experiments show that our method is resilient in
generating prolonged motions and varied challenging and complex poses compared
to prior methods. Please check our website for more details:
https://boyiliee.github.io/3DHM.github.io/.