ChatPaper.aiChatPaper

Synthese von sich bewegenden Personen mit 3D-Steuerung

Synthesizing Moving People with 3D Control

January 19, 2024
papers.authors: Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
cs.AI

papers.abstract

In diesem Artikel präsentieren wir ein auf Diffusionsmodellen basierendes Framework zur Animation von Personen aus einem einzelnen Bild für eine gegebene Ziel-3D-Bewegungssequenz. Unser Ansatz besteht aus zwei Kernkomponenten: a) dem Erlernen von Priori über unsichtbare Teile des menschlichen Körpers und der Kleidung und b) dem Rendern neuer Körperposen mit korrekter Kleidung und Textur. Für den ersten Teil lernen wir ein In-Filling-Diffusionsmodell, um unsichtbare Teile einer Person basierend auf einem einzelnen Bild zu halluzinieren. Wir trainieren dieses Modell im Texturkartenraum, was es aufgrund der Invarianz gegenüber Pose und Blickwinkel effizienter macht. Zweitens entwickeln wir ein diffusionsbasiertes Rendering-Pipeline, das durch 3D-Menschposen gesteuert wird. Dies erzeugt realistische Darstellungen neuer Posen der Person, einschließlich Kleidung, Haare und plausibler Auffüllung unsichtbarer Bereiche. Dieser entkoppelte Ansatz ermöglicht es unserer Methode, eine Sequenz von Bildern zu generieren, die sowohl der Zielbewegung in der 3D-Pose als auch dem Eingabebild in Bezug auf visuelle Ähnlichkeit treu sind. Darüber hinaus ermöglicht die 3D-Steuerung verschiedene synthetische Kameratrajektorien, um eine Person darzustellen. Unsere Experimente zeigen, dass unsere Methode im Vergleich zu früheren Methoden widerstandsfähig bei der Erzeugung längerer Bewegungen und verschiedener herausfordernder und komplexer Posen ist. Weitere Details finden Sie auf unserer Website: https://boyiliee.github.io/3DHM.github.io/.
English
In this paper, we present a diffusion model-based framework for animating people from a single image for a given target 3D motion sequence. Our approach has two core components: a) learning priors about invisible parts of the human body and clothing, and b) rendering novel body poses with proper clothing and texture. For the first part, we learn an in-filling diffusion model to hallucinate unseen parts of a person given a single image. We train this model on texture map space, which makes it more sample-efficient since it is invariant to pose and viewpoint. Second, we develop a diffusion-based rendering pipeline, which is controlled by 3D human poses. This produces realistic renderings of novel poses of the person, including clothing, hair, and plausible in-filling of unseen regions. This disentangled approach allows our method to generate a sequence of images that are faithful to the target motion in the 3D pose and, to the input image in terms of visual similarity. In addition to that, the 3D control allows various synthetic camera trajectories to render a person. Our experiments show that our method is resilient in generating prolonged motions and varied challenging and complex poses compared to prior methods. Please check our website for more details: https://boyiliee.github.io/3DHM.github.io/.
PDF121December 15, 2024