ChatPaper.aiChatPaper

HumanVid: カメラ制御可能な人間画像アニメーションのためのトレーニングデータの解明

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

July 24, 2024
著者: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI

要旨

人間画像アニメーションは、キャラクター写真から動画を生成し、ユーザー制御を可能にすることで、映像制作や映画制作の可能性を広げる技術です。最近のアプローチでは、高品質なトレーニングデータを使用して印象的な結果を生み出していますが、これらのデータセットへのアクセスが制限されているため、公平で透明性のあるベンチマークが妨げられています。さらに、これらのアプローチは2Dの人間の動きを優先し、動画におけるカメラの動きの重要性を見落としているため、制御が限られ、不安定な動画生成につながっています。トレーニングデータの謎を解明するため、私たちはHumanVidを提案します。これは、人間画像アニメーションに特化した初の大規模高品質データセットで、精巧に作られた実世界データと合成データを組み合わせています。実世界データについては、インターネットから著作権フリーの実世界動画を大量に収集しました。慎重に設計されたルールベースのフィルタリング戦略を通じて、高品質な動画を含めることを保証し、1080P解像度の人間中心の動画20,000本を収集しました。人間とカメラの動きのアノテーションは、2Dポーズ推定器とSLAMベースの手法を使用して行われました。合成データについては、2,300の著作権フリーの3Dアバターアセットを収集し、既存の利用可能な3Dアセットを拡充しました。特に、ルールベースのカメラ軌道生成方法を導入し、合成パイプラインが多様で正確なカメラ動きのアノテーションを組み込むことを可能にしました。これは実世界データではほとんど見られないものです。HumanVidの有効性を検証するため、CamAnimate(Camera-controllable Human Animationの略)というベースラインモデルを確立しました。これは、人間とカメラの動きの両方を条件として考慮します。広範な実験を通じて、私たちのHumanVidでこのようなシンプルなベースラインをトレーニングすることで、人間のポーズとカメラの動きの両方を制御する最新の性能を達成し、新しいベンチマークを設定することを実証しました。コードとデータはhttps://github.com/zhenzhiwang/HumanVid/で公開されます。
English
Human image animation involves generating videos from a character photo, allowing user control and unlocking potential for video and movie production. While recent approaches yield impressive results using high-quality training data, the inaccessibility of these datasets hampers fair and transparent benchmarking. Moreover, these approaches prioritize 2D human motion and overlook the significance of camera motions in videos, leading to limited control and unstable video generation.To demystify the training data, we present HumanVid, the first large-scale high-quality dataset tailored for human image animation, which combines crafted real-world and synthetic data. For the real-world data, we compile a vast collection of copyright-free real-world videos from the internet. Through a carefully designed rule-based filtering strategy, we ensure the inclusion of high-quality videos, resulting in a collection of 20K human-centric videos in 1080P resolution. Human and camera motion annotation is accomplished using a 2D pose estimator and a SLAM-based method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets to augment existing available 3D assets. Notably, we introduce a rule-based camera trajectory generation method, enabling the synthetic pipeline to incorporate diverse and precise camera motion annotation, which can rarely be found in real-world data. To verify the effectiveness of HumanVid, we establish a baseline model named CamAnimate, short for Camera-controllable Human Animation, that considers both human and camera motions as conditions. Through extensive experimentation, we demonstrate that such simple baseline training on our HumanVid achieves state-of-the-art performance in controlling both human pose and camera motions, setting a new benchmark. Code and data will be publicly available at https://github.com/zhenzhiwang/HumanVid/.

Summary

AI-Generated Summary

PDF263November 28, 2024