HumanVid: Entmystifizierung von Trainingsdaten für kamerasteuerbare menschliche Bildanimation.
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
July 24, 2024
Autoren: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI
Zusammenfassung
Die Animation von menschlichen Bildern beinhaltet die Erzeugung von Videos aus einem Charakterfoto, was dem Benutzer die Kontrolle ermöglicht und das Potenzial für Video- und Filmproduktion freisetzt. Während aktuelle Ansätze beeindruckende Ergebnisse durch die Verwendung hochwertiger Trainingsdaten liefern, behindert die Unzugänglichkeit dieser Datensätze eine faire und transparente Bewertung. Darüber hinaus priorisieren diese Ansätze die 2D-Menschendarstellung und übersehen die Bedeutung von Kamerabewegungen in Videos, was zu eingeschränkter Kontrolle und instabiler Videogenerierung führt. Um die Trainingsdaten zu entschlüsseln, präsentieren wir HumanVid, den ersten groß angelegten hochwertigen Datensatz, der speziell für die Animation von menschlichen Bildern entwickelt wurde und echte und synthetische Daten kombiniert. Für die realen Daten erstellen wir eine umfangreiche Sammlung von urheberrechtsfreien realen Videos aus dem Internet. Durch eine sorgfältig gestaltete regelbasierte Filterstrategie stellen wir die Einbeziehung hochwertiger Videos sicher, was zu einer Sammlung von 20.000 menschenzentrierten Videos in 1080P-Auflösung führt. Die Annotation von menschlichen und Kamerabewegungen erfolgt mithilfe eines 2D-Posenschätzers und einer auf SLAM basierenden Methode. Für die synthetischen Daten sammeln wir 2.300 urheberrechtsfreie 3D-Avatar-Ressourcen, um vorhandene verfügbare 3D-Ressourcen zu erweitern. Insbesondere führen wir eine regelbasierte Methode zur Generierung von Kameratrajektorien ein, die es der synthetischen Pipeline ermöglicht, vielfältige und präzise Kamerabewegungsannotationen zu integrieren, die in realen Daten selten zu finden sind. Zur Überprüfung der Wirksamkeit von HumanVid etablieren wir ein Basismodell namens CamAnimate, kurz für Kamera-steuerbare menschliche Animation, das sowohl menschliche als auch Kamerabewegungen als Bedingungen berücksichtigt. Durch umfangreiche Experimente zeigen wir, dass ein solches einfaches Basistraining auf unserem HumanVid eine Spitzenleistung bei der Steuerung sowohl der menschlichen Pose als auch der Kamerabewegungen erreicht und einen neuen Maßstab setzt. Der Code und die Daten werden öffentlich verfügbar sein unter https://github.com/zhenzhiwang/HumanVid/.
English
Human image animation involves generating videos from a character photo,
allowing user control and unlocking potential for video and movie production.
While recent approaches yield impressive results using high-quality training
data, the inaccessibility of these datasets hampers fair and transparent
benchmarking. Moreover, these approaches prioritize 2D human motion and
overlook the significance of camera motions in videos, leading to limited
control and unstable video generation.To demystify the training data, we
present HumanVid, the first large-scale high-quality dataset tailored for human
image animation, which combines crafted real-world and synthetic data. For the
real-world data, we compile a vast collection of copyright-free real-world
videos from the internet. Through a carefully designed rule-based filtering
strategy, we ensure the inclusion of high-quality videos, resulting in a
collection of 20K human-centric videos in 1080P resolution. Human and camera
motion annotation is accomplished using a 2D pose estimator and a SLAM-based
method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets
to augment existing available 3D assets. Notably, we introduce a rule-based
camera trajectory generation method, enabling the synthetic pipeline to
incorporate diverse and precise camera motion annotation, which can rarely be
found in real-world data. To verify the effectiveness of HumanVid, we establish
a baseline model named CamAnimate, short for Camera-controllable Human
Animation, that considers both human and camera motions as conditions. Through
extensive experimentation, we demonstrate that such simple baseline training on
our HumanVid achieves state-of-the-art performance in controlling both human
pose and camera motions, setting a new benchmark. Code and data will be
publicly available at https://github.com/zhenzhiwang/HumanVid/.Summary
AI-Generated Summary