Síntesis de personas en movimiento con control 3D
Synthesizing Moving People with 3D Control
January 19, 2024
Autores: Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
cs.AI
Resumen
En este artículo, presentamos un marco basado en modelos de difusión para animar personas a partir de una sola imagen, dada una secuencia de movimiento 3D objetivo. Nuestro enfoque consta de dos componentes principales: a) aprender priors sobre las partes invisibles del cuerpo humano y la ropa, y b) renderizar nuevas posturas corporales con la ropa y textura adecuadas. Para la primera parte, entrenamos un modelo de difusión de relleno para alucinar las partes no visibles de una persona dada una sola imagen. Entrenamos este modelo en el espacio de mapas de textura, lo que lo hace más eficiente en términos de muestras, ya que es invariante a la postura y el punto de vista. En segundo lugar, desarrollamos una canalización de renderizado basada en difusión, controlada por posturas humanas 3D. Esto produce renderizados realistas de nuevas posturas de la persona, incluyendo la ropa, el cabello y un relleno plausible de las regiones no visibles. Este enfoque desacoplado permite que nuestro método genere una secuencia de imágenes que son fieles al movimiento objetivo en la postura 3D y a la imagen de entrada en términos de similitud visual. Además, el control 3D permite diversas trayectorias sintéticas de cámara para renderizar a una persona. Nuestros experimentos muestran que nuestro método es resistente en la generación de movimientos prolongados y posturas variadas, desafiantes y complejas en comparación con métodos anteriores. Consulte nuestro sitio web para más detalles: https://boyiliee.github.io/3DHM.github.io/.
English
In this paper, we present a diffusion model-based framework for animating
people from a single image for a given target 3D motion sequence. Our approach
has two core components: a) learning priors about invisible parts of the human
body and clothing, and b) rendering novel body poses with proper clothing and
texture. For the first part, we learn an in-filling diffusion model to
hallucinate unseen parts of a person given a single image. We train this model
on texture map space, which makes it more sample-efficient since it is
invariant to pose and viewpoint. Second, we develop a diffusion-based rendering
pipeline, which is controlled by 3D human poses. This produces realistic
renderings of novel poses of the person, including clothing, hair, and
plausible in-filling of unseen regions. This disentangled approach allows our
method to generate a sequence of images that are faithful to the target motion
in the 3D pose and, to the input image in terms of visual similarity. In
addition to that, the 3D control allows various synthetic camera trajectories
to render a person. Our experiments show that our method is resilient in
generating prolonged motions and varied challenging and complex poses compared
to prior methods. Please check our website for more details:
https://boyiliee.github.io/3DHM.github.io/.