HumanVid: Ontrafelen van Trainingsdata voor Camera-bestuurbare Menselijke Beeldanimatie
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
July 24, 2024
Auteurs: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI
Samenvatting
Human image animation omvat het genereren van video's vanuit een karakterfoto, wat gebruikerscontrole mogelijk maakt en potentieel ontsluit voor video- en filmproductie. Hoewel recente benaderingen indrukwekkende resultaten opleveren met behulp van hoogwaardige trainingsdata, belemmert de ontoegankelijkheid van deze datasets eerlijke en transparante benchmarking. Bovendien leggen deze benaderingen de nadruk op 2D-menselijke beweging en negeren ze het belang van camerabewegingen in video's, wat leidt tot beperkte controle en onstabiele videogeneratie. Om de trainingsdata te demystificeren, presenteren we HumanVid, de eerste grootschalige hoogwaardige dataset die speciaal is ontworpen voor human image animation, en die zowel gemaakte real-world als synthetische data combineert. Voor de real-world data hebben we een uitgebreide verzameling auteursvrije real-world video's van het internet samengesteld. Door een zorgvuldig ontworpen regelgebaseerde filterstrategie zorgen we ervoor dat hoogwaardige video's worden opgenomen, wat resulteert in een verzameling van 20K mensgerichte video's in 1080P-resolutie. Menselijke en camerabewegingsannotatie wordt gerealiseerd met behulp van een 2D-pose-estimator en een SLAM-gebaseerde methode. Voor de synthetische data hebben we 2.300 auteursvrije 3D-avatarassets verzameld om de bestaande beschikbare 3D-assets aan te vullen. Opmerkelijk is dat we een regelgebaseerde methode voor cameratrajectgeneratie introduceren, waardoor de synthetische pipeline diverse en precieze camerabewegingsannotatie kan incorporeren, wat zelden te vinden is in real-world data. Om de effectiviteit van HumanVid te verifiëren, hebben we een basismodel genaamd CamAnimate, kort voor Camera-controllable Human Animation, opgesteld dat zowel menselijke als camerabewegingen als voorwaarden beschouwt. Door uitgebreide experimenten tonen we aan dat een dergelijke eenvoudige basistraining op onze HumanVid state-of-the-art prestaties bereikt in het beheersen van zowel menselijke poses als camerabewegingen, wat een nieuwe benchmark stelt. Code en data zullen publiekelijk beschikbaar zijn op https://github.com/zhenzhiwang/HumanVid/.
English
Human image animation involves generating videos from a character photo,
allowing user control and unlocking potential for video and movie production.
While recent approaches yield impressive results using high-quality training
data, the inaccessibility of these datasets hampers fair and transparent
benchmarking. Moreover, these approaches prioritize 2D human motion and
overlook the significance of camera motions in videos, leading to limited
control and unstable video generation.To demystify the training data, we
present HumanVid, the first large-scale high-quality dataset tailored for human
image animation, which combines crafted real-world and synthetic data. For the
real-world data, we compile a vast collection of copyright-free real-world
videos from the internet. Through a carefully designed rule-based filtering
strategy, we ensure the inclusion of high-quality videos, resulting in a
collection of 20K human-centric videos in 1080P resolution. Human and camera
motion annotation is accomplished using a 2D pose estimator and a SLAM-based
method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets
to augment existing available 3D assets. Notably, we introduce a rule-based
camera trajectory generation method, enabling the synthetic pipeline to
incorporate diverse and precise camera motion annotation, which can rarely be
found in real-world data. To verify the effectiveness of HumanVid, we establish
a baseline model named CamAnimate, short for Camera-controllable Human
Animation, that considers both human and camera motions as conditions. Through
extensive experimentation, we demonstrate that such simple baseline training on
our HumanVid achieves state-of-the-art performance in controlling both human
pose and camera motions, setting a new benchmark. Code and data will be
publicly available at https://github.com/zhenzhiwang/HumanVid/.