Champ: Animación de Imágenes Humanas Controlable y Consistente con Guía Paramétrica 3D
Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance
March 21, 2024
Autores: Shenhao Zhu, Junming Leo Chen, Zuozhuo Dai, Yinghui Xu, Xun Cao, Yao Yao, Hao Zhu, Siyu Zhu
cs.AI
Resumen
En este estudio, presentamos una metodología para la animación de imágenes humanas mediante el uso de un modelo paramétrico humano 3D dentro de un marco de difusión latente para mejorar la alineación de formas y la guía de movimiento en las técnicas actuales de generación humana. La metodología utiliza el modelo SMPL (Skinned Multi-Person Linear) como modelo paramétrico humano 3D para establecer una representación unificada de la forma y la postura del cuerpo. Esto facilita la captura precisa de la geometría humana compleja y las características de movimiento a partir de videos fuente. Específicamente, incorporamos imágenes de profundidad renderizadas, mapas normales y mapas semánticos obtenidos de secuencias SMPL, junto con una guía de movimiento basada en esqueletos, para enriquecer las condiciones del modelo de difusión latente con una forma 3D integral y atributos detallados de postura. Un módulo de fusión de movimiento multicapa, que integra mecanismos de auto-atención, se emplea para fusionar las representaciones latentes de forma y movimiento en el dominio espacial. Al representar el modelo paramétrico humano 3D como la guía de movimiento, podemos realizar una alineación paramétrica de la forma del cuerpo humano entre la imagen de referencia y el movimiento del video fuente. Las evaluaciones experimentales realizadas en conjuntos de datos de referencia demuestran la capacidad superior de la metodología para generar animaciones humanas de alta calidad que capturan con precisión tanto las variaciones de postura como de forma. Además, nuestro enfoque también exhibe capacidades de generalización superiores en el conjunto de datos propuesto en entornos no controlados. Página del proyecto: https://fudan-generative-vision.github.io/champ.
English
In this study, we introduce a methodology for human image animation by
leveraging a 3D human parametric model within a latent diffusion framework to
enhance shape alignment and motion guidance in curernt human generative
techniques. The methodology utilizes the SMPL(Skinned Multi-Person Linear)
model as the 3D human parametric model to establish a unified representation of
body shape and pose. This facilitates the accurate capture of intricate human
geometry and motion characteristics from source videos. Specifically, we
incorporate rendered depth images, normal maps, and semantic maps obtained from
SMPL sequences, alongside skeleton-based motion guidance, to enrich the
conditions to the latent diffusion model with comprehensive 3D shape and
detailed pose attributes. A multi-layer motion fusion module, integrating
self-attention mechanisms, is employed to fuse the shape and motion latent
representations in the spatial domain. By representing the 3D human parametric
model as the motion guidance, we can perform parametric shape alignment of the
human body between the reference image and the source video motion.
Experimental evaluations conducted on benchmark datasets demonstrate the
methodology's superior ability to generate high-quality human animations that
accurately capture both pose and shape variations. Furthermore, our approach
also exhibits superior generalization capabilities on the proposed wild
dataset. Project page: https://fudan-generative-vision.github.io/champ.Summary
AI-Generated Summary