Síntesis de personas en movimiento con control 3D

Resumen

En este artículo, presentamos un marco basado en modelos de difusión para animar personas a partir de una sola imagen, dada una secuencia de movimiento 3D objetivo. Nuestro enfoque consta de dos componentes principales: a) aprender priors sobre las partes invisibles del cuerpo humano y la ropa, y b) renderizar nuevas posturas corporales con la ropa y textura adecuadas. Para la primera parte, entrenamos un modelo de difusión de relleno para alucinar las partes no visibles de una persona dada una sola imagen. Entrenamos este modelo en el espacio de mapas de textura, lo que lo hace más eficiente en términos de muestras, ya que es invariante a la postura y el punto de vista. En segundo lugar, desarrollamos una canalización de renderizado basada en difusión, controlada por posturas humanas 3D. Esto produce renderizados realistas de nuevas posturas de la persona, incluyendo la ropa, el cabello y un relleno plausible de las regiones no visibles. Este enfoque desacoplado permite que nuestro método genere una secuencia de imágenes que son fieles al movimiento objetivo en la postura 3D y a la imagen de entrada en términos de similitud visual. Además, el control 3D permite diversas trayectorias sintéticas de cámara para renderizar a una persona. Nuestros experimentos muestran que nuestro método es resistente en la generación de movimientos prolongados y posturas variadas, desafiantes y complejas en comparación con métodos anteriores. Consulte nuestro sitio web para más detalles: https://boyiliee.github.io/3DHM.github.io/.

English

In this paper, we present a diffusion model-based framework for animating people from a single image for a given target 3D motion sequence. Our approach has two core components: a) learning priors about invisible parts of the human body and clothing, and b) rendering novel body poses with proper clothing and texture. For the first part, we learn an in-filling diffusion model to hallucinate unseen parts of a person given a single image. We train this model on texture map space, which makes it more sample-efficient since it is invariant to pose and viewpoint. Second, we develop a diffusion-based rendering pipeline, which is controlled by 3D human poses. This produces realistic renderings of novel poses of the person, including clothing, hair, and plausible in-filling of unseen regions. This disentangled approach allows our method to generate a sequence of images that are faithful to the target motion in the 3D pose and, to the input image in terms of visual similarity. In addition to that, the 3D control allows various synthetic camera trajectories to render a person. Our experiments show that our method is resilient in generating prolonged motions and varied challenging and complex poses compared to prior methods. Please check our website for more details: https://boyiliee.github.io/3DHM.github.io/.

Síntesis de personas en movimiento con control 3D

Synthesizing Moving People with 3D Control

Resumen

Support