Het synthetiseren van bewegende mensen met 3D-controle
Synthesizing Moving People with 3D Control
January 19, 2024
Auteurs: Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
cs.AI
Samenvatting
In dit artikel presenteren we een op diffusiemodellen gebaseerd framework voor het animeren van mensen vanuit een enkele afbeelding voor een gegeven doel-3D-bewegingssequentie. Onze aanpak heeft twee kerncomponenten: a) het leren van aannames over onzichtbare delen van het menselijk lichaam en kleding, en b) het renderen van nieuwe lichaamshoudingen met passende kleding en textuur. Voor het eerste deel leren we een in-vul-diffusiemodel om onzichtbare delen van een persoon te hallucineren op basis van een enkele afbeelding. We trainen dit model in de textuurmapruimte, wat het sample-efficiënter maakt omdat het invariant is voor houding en gezichtspunt. Ten tweede ontwikkelen we een op diffusie gebaseerd renderingspipeline, dat wordt bestuurd door 3D-menselijke houdingen. Dit produceert realistische weergaven van nieuwe houdingen van de persoon, inclusief kleding, haar en plausibel ingevulde onzichtbare regio's. Deze ontvlochten aanpak stelt onze methode in staat om een reeks afbeeldingen te genereren die trouw zijn aan de doelbeweging in de 3D-houding en aan de invoerafbeelding in termen van visuele gelijkenis. Daarnaast maakt de 3D-besturing het mogelijk om verschillende synthetische cameratrajecten te gebruiken om een persoon te renderen. Onze experimenten tonen aan dat onze methode veerkrachtig is in het genereren van langdurige bewegingen en uiteenlopende uitdagende en complexe houdingen in vergelijking met eerdere methoden. Bezoek onze website voor meer details: https://boyiliee.github.io/3DHM.github.io/.
English
In this paper, we present a diffusion model-based framework for animating
people from a single image for a given target 3D motion sequence. Our approach
has two core components: a) learning priors about invisible parts of the human
body and clothing, and b) rendering novel body poses with proper clothing and
texture. For the first part, we learn an in-filling diffusion model to
hallucinate unseen parts of a person given a single image. We train this model
on texture map space, which makes it more sample-efficient since it is
invariant to pose and viewpoint. Second, we develop a diffusion-based rendering
pipeline, which is controlled by 3D human poses. This produces realistic
renderings of novel poses of the person, including clothing, hair, and
plausible in-filling of unseen regions. This disentangled approach allows our
method to generate a sequence of images that are faithful to the target motion
in the 3D pose and, to the input image in terms of visual similarity. In
addition to that, the 3D control allows various synthetic camera trajectories
to render a person. Our experiments show that our method is resilient in
generating prolonged motions and varied challenging and complex poses compared
to prior methods. Please check our website for more details:
https://boyiliee.github.io/3DHM.github.io/.