HumanVid: Desmitificando los Datos de Entrenamiento para la Animación de Imágenes Humanas Controladas por Cámara
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
July 24, 2024
Autores: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI
Resumen
La animación de imágenes humanas implica generar videos a partir de una foto de un personaje, permitiendo el control del usuario y desbloqueando el potencial para la producción de videos y películas. Si bien los enfoques recientes ofrecen resultados impresionantes utilizando datos de entrenamiento de alta calidad, la inaccesibilidad de estos conjuntos de datos dificulta la evaluación justa y transparente. Además, estos enfoques priorizan el movimiento humano en 2D y pasan por alto la importancia de los movimientos de cámara en los videos, lo que resulta en un control limitado y una generación de video inestable. Para desmitificar los datos de entrenamiento, presentamos HumanVid, el primer conjunto de datos de alta calidad a gran escala diseñado para la animación de imágenes humanas, que combina datos del mundo real elaborados y datos sintéticos. Para los datos del mundo real, recopilamos una vasta colección de videos del mundo real libres de derechos de autor de Internet. A través de una estrategia de filtrado basada en reglas cuidadosamente diseñada, garantizamos la inclusión de videos de alta calidad, lo que resulta en una colección de 20,000 videos centrados en humanos en resolución 1080P. La anotación del movimiento humano y de la cámara se logra utilizando un estimador de postura en 2D y un método basado en SLAM. Para los datos sintéticos, reunimos 2,300 activos de avatar 3D libres de derechos de autor para aumentar los activos 3D disponibles existentes. Especialmente, introducimos un método de generación de trayectoria de cámara basado en reglas, lo que permite que el proceso sintético incorpore una anotación de movimiento de cámara diversa y precisa, que rara vez se encuentra en datos del mundo real. Para verificar la efectividad de HumanVid, establecemos un modelo base llamado CamAnimate, abreviatura de Animación Humana Controlable por Cámara, que considera tanto el movimiento humano como el de la cámara como condiciones. A través de experimentación extensiva, demostramos que un entrenamiento de línea base tan simple en nuestro HumanVid logra un rendimiento de vanguardia en el control tanto de la postura humana como de los movimientos de cámara, estableciendo un nuevo punto de referencia. El código y los datos estarán disponibles públicamente en https://github.com/zhenzhiwang/HumanVid/.
English
Human image animation involves generating videos from a character photo,
allowing user control and unlocking potential for video and movie production.
While recent approaches yield impressive results using high-quality training
data, the inaccessibility of these datasets hampers fair and transparent
benchmarking. Moreover, these approaches prioritize 2D human motion and
overlook the significance of camera motions in videos, leading to limited
control and unstable video generation.To demystify the training data, we
present HumanVid, the first large-scale high-quality dataset tailored for human
image animation, which combines crafted real-world and synthetic data. For the
real-world data, we compile a vast collection of copyright-free real-world
videos from the internet. Through a carefully designed rule-based filtering
strategy, we ensure the inclusion of high-quality videos, resulting in a
collection of 20K human-centric videos in 1080P resolution. Human and camera
motion annotation is accomplished using a 2D pose estimator and a SLAM-based
method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets
to augment existing available 3D assets. Notably, we introduce a rule-based
camera trajectory generation method, enabling the synthetic pipeline to
incorporate diverse and precise camera motion annotation, which can rarely be
found in real-world data. To verify the effectiveness of HumanVid, we establish
a baseline model named CamAnimate, short for Camera-controllable Human
Animation, that considers both human and camera motions as conditions. Through
extensive experimentation, we demonstrate that such simple baseline training on
our HumanVid achieves state-of-the-art performance in controlling both human
pose and camera motions, setting a new benchmark. Code and data will be
publicly available at https://github.com/zhenzhiwang/HumanVid/.Summary
AI-Generated Summary