ChatPaper.aiChatPaper

HumanVid : Démystifier les données d'entraînement pour l'animation d'images humaines contrôlables par caméra

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

July 24, 2024
Auteurs: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI

Résumé

L'animation d'images humaines consiste à générer des vidéos à partir d'une photo de personnage, offrant un contrôle à l'utilisateur et ouvrant des perspectives pour la production de vidéos et de films. Bien que les approches récentes produisent des résultats impressionnants en utilisant des données d'entraînement de haute qualité, l'inaccessibilité de ces ensembles de données entrave un benchmarking équitable et transparent. De plus, ces approches privilégient le mouvement humain en 2D et négligent l'importance des mouvements de caméra dans les vidéos, ce qui limite le contrôle et génère des vidéos instables. Pour démystifier les données d'entraînement, nous présentons HumanVid, le premier ensemble de données à grande échelle et de haute qualité spécialement conçu pour l'animation d'images humaines, combinant des données réelles soigneusement sélectionnées et des données synthétiques. Pour les données réelles, nous avons compilé une vaste collection de vidéos libres de droits provenant d'internet. Grâce à une stratégie de filtrage basée sur des règles soigneusement conçue, nous garantissons l'inclusion de vidéos de haute qualité, aboutissant à une collection de 20 000 vidéos centrées sur l'humain en résolution 1080P. L'annotation des mouvements humains et de la caméra est réalisée à l'aide d'un estimateur de pose 2D et d'une méthode basée sur SLAM. Pour les données synthétiques, nous avons rassemblé 2 300 ressources d'avatars 3D libres de droits pour enrichir les ressources 3D disponibles. Nous introduisons notamment une méthode de génération de trajectoires de caméra basée sur des règles, permettant au pipeline synthétique d'intégrer une annotation de mouvement de caméra diversifiée et précise, rarement disponible dans les données réelles. Pour vérifier l'efficacité de HumanVid, nous établissons un modèle de référence nommé CamAnimate, abréviation de Camera-controllable Human Animation, qui prend en compte à la fois les mouvements humains et de caméra comme conditions. À travers des expérimentations approfondies, nous démontrons qu'un entraînement aussi simple sur notre HumanVid atteint des performances de pointe dans le contrôle des poses humaines et des mouvements de caméra, établissant ainsi un nouveau benchmark. Le code et les données seront disponibles publiquement à l'adresse https://github.com/zhenzhiwang/HumanVid/.
English
Human image animation involves generating videos from a character photo, allowing user control and unlocking potential for video and movie production. While recent approaches yield impressive results using high-quality training data, the inaccessibility of these datasets hampers fair and transparent benchmarking. Moreover, these approaches prioritize 2D human motion and overlook the significance of camera motions in videos, leading to limited control and unstable video generation.To demystify the training data, we present HumanVid, the first large-scale high-quality dataset tailored for human image animation, which combines crafted real-world and synthetic data. For the real-world data, we compile a vast collection of copyright-free real-world videos from the internet. Through a carefully designed rule-based filtering strategy, we ensure the inclusion of high-quality videos, resulting in a collection of 20K human-centric videos in 1080P resolution. Human and camera motion annotation is accomplished using a 2D pose estimator and a SLAM-based method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets to augment existing available 3D assets. Notably, we introduce a rule-based camera trajectory generation method, enabling the synthetic pipeline to incorporate diverse and precise camera motion annotation, which can rarely be found in real-world data. To verify the effectiveness of HumanVid, we establish a baseline model named CamAnimate, short for Camera-controllable Human Animation, that considers both human and camera motions as conditions. Through extensive experimentation, we demonstrate that such simple baseline training on our HumanVid achieves state-of-the-art performance in controlling both human pose and camera motions, setting a new benchmark. Code and data will be publicly available at https://github.com/zhenzhiwang/HumanVid/.

Summary

AI-Generated Summary

PDF263November 28, 2024