Champ: Animación de Imágenes Humanas Controlable y Consistente con Guía Paramétrica 3D

Resumen

En este estudio, presentamos una metodología para la animación de imágenes humanas mediante el uso de un modelo paramétrico humano 3D dentro de un marco de difusión latente para mejorar la alineación de formas y la guía de movimiento en las técnicas actuales de generación humana. La metodología utiliza el modelo SMPL (Skinned Multi-Person Linear) como modelo paramétrico humano 3D para establecer una representación unificada de la forma y la postura del cuerpo. Esto facilita la captura precisa de la geometría humana compleja y las características de movimiento a partir de videos fuente. Específicamente, incorporamos imágenes de profundidad renderizadas, mapas normales y mapas semánticos obtenidos de secuencias SMPL, junto con una guía de movimiento basada en esqueletos, para enriquecer las condiciones del modelo de difusión latente con una forma 3D integral y atributos detallados de postura. Un módulo de fusión de movimiento multicapa, que integra mecanismos de auto-atención, se emplea para fusionar las representaciones latentes de forma y movimiento en el dominio espacial. Al representar el modelo paramétrico humano 3D como la guía de movimiento, podemos realizar una alineación paramétrica de la forma del cuerpo humano entre la imagen de referencia y el movimiento del video fuente. Las evaluaciones experimentales realizadas en conjuntos de datos de referencia demuestran la capacidad superior de la metodología para generar animaciones humanas de alta calidad que capturan con precisión tanto las variaciones de postura como de forma. Además, nuestro enfoque también exhibe capacidades de generalización superiores en el conjunto de datos propuesto en entornos no controlados. Página del proyecto: https://fudan-generative-vision.github.io/champ.

English

In this study, we introduce a methodology for human image animation by leveraging a 3D human parametric model within a latent diffusion framework to enhance shape alignment and motion guidance in curernt human generative techniques. The methodology utilizes the SMPL(Skinned Multi-Person Linear) model as the 3D human parametric model to establish a unified representation of body shape and pose. This facilitates the accurate capture of intricate human geometry and motion characteristics from source videos. Specifically, we incorporate rendered depth images, normal maps, and semantic maps obtained from SMPL sequences, alongside skeleton-based motion guidance, to enrich the conditions to the latent diffusion model with comprehensive 3D shape and detailed pose attributes. A multi-layer motion fusion module, integrating self-attention mechanisms, is employed to fuse the shape and motion latent representations in the spatial domain. By representing the 3D human parametric model as the motion guidance, we can perform parametric shape alignment of the human body between the reference image and the source video motion. Experimental evaluations conducted on benchmark datasets demonstrate the methodology's superior ability to generate high-quality human animations that accurately capture both pose and shape variations. Furthermore, our approach also exhibits superior generalization capabilities on the proposed wild dataset. Project page: https://fudan-generative-vision.github.io/champ.

Champ: Animación de Imágenes Humanas Controlable y Consistente con Guía Paramétrica 3D

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

Resumen

Support