HumanVid: Svelare i Dati di Addestramento per l'Animazione di Immagini Umane Controllabili dalla Fotocamera
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
July 24, 2024
Autori: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI
Abstract
L'animazione di immagini umane consiste nella generazione di video a partire da una foto di un personaggio, consentendo il controllo da parte dell'utente e aprendo nuove possibilità per la produzione di video e film. Sebbene i metodi recenti producano risultati impressionanti utilizzando dati di addestramento di alta qualità, l'inaccessibilità di questi dataset ostacola un benchmarking equo e trasparente. Inoltre, questi approcci privilegiano il movimento umano in 2D e trascurano l'importanza dei movimenti della telecamera nei video, portando a un controllo limitato e a una generazione di video instabile. Per chiarire i dati di addestramento, presentiamo HumanVid, il primo dataset su larga scala e di alta qualità specificamente progettato per l'animazione di immagini umane, che combina dati reali elaborati e dati sintetici. Per i dati reali, abbiamo raccolto una vasta collezione di video reali liberi da diritti d'autore da internet. Attraverso una strategia di filtraggio basata su regole accuratamente progettata, garantiamo l'inclusione di video di alta qualità, ottenendo una raccolta di 20K video incentrati sull'uomo in risoluzione 1080P. L'annotazione del movimento umano e della telecamera è stata realizzata utilizzando un estimatore di pose 2D e un metodo basato su SLAM. Per i dati sintetici, abbiamo raccolto 2.300 risorse di avatar 3D libere da diritti d'autore per ampliare le risorse 3D disponibili. In particolare, introduciamo un metodo di generazione della traiettoria della telecamera basato su regole, che consente alla pipeline sintetica di incorporare annotazioni di movimento della telecamera diverse e precise, difficilmente riscontrabili nei dati reali. Per verificare l'efficacia di HumanVid, abbiamo stabilito un modello di base denominato CamAnimate, abbreviazione di Camera-controllable Human Animation, che considera sia i movimenti umani che quelli della telecamera come condizioni. Attraverso un'ampia sperimentazione, dimostriamo che un semplice addestramento di base sul nostro HumanVid raggiunge prestazioni all'avanguardia nel controllo sia della posa umana che dei movimenti della telecamera, stabilendo un nuovo benchmark. Codice e dati saranno pubblicamente disponibili all'indirizzo https://github.com/zhenzhiwang/HumanVid/.
English
Human image animation involves generating videos from a character photo,
allowing user control and unlocking potential for video and movie production.
While recent approaches yield impressive results using high-quality training
data, the inaccessibility of these datasets hampers fair and transparent
benchmarking. Moreover, these approaches prioritize 2D human motion and
overlook the significance of camera motions in videos, leading to limited
control and unstable video generation.To demystify the training data, we
present HumanVid, the first large-scale high-quality dataset tailored for human
image animation, which combines crafted real-world and synthetic data. For the
real-world data, we compile a vast collection of copyright-free real-world
videos from the internet. Through a carefully designed rule-based filtering
strategy, we ensure the inclusion of high-quality videos, resulting in a
collection of 20K human-centric videos in 1080P resolution. Human and camera
motion annotation is accomplished using a 2D pose estimator and a SLAM-based
method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets
to augment existing available 3D assets. Notably, we introduce a rule-based
camera trajectory generation method, enabling the synthetic pipeline to
incorporate diverse and precise camera motion annotation, which can rarely be
found in real-world data. To verify the effectiveness of HumanVid, we establish
a baseline model named CamAnimate, short for Camera-controllable Human
Animation, that considers both human and camera motions as conditions. Through
extensive experimentation, we demonstrate that such simple baseline training on
our HumanVid achieves state-of-the-art performance in controlling both human
pose and camera motions, setting a new benchmark. Code and data will be
publicly available at https://github.com/zhenzhiwang/HumanVid/.