ChatPaper.aiChatPaper

HumanVid: 카메라 제어 가능한 인간 이미지 애니메이션을 위한 훈련 데이터의 이해

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

July 24, 2024
저자: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI

초록

인물 이미지 애니메이션은 캐릭터 사진에서 비디오를 생성하며, 사용자 제어를 가능하게 하고 비디오 및 영화 제작의 잠재력을 열어줍니다. 최근의 접근법들은 고품질 학습 데이터를 사용하여 인상적인 결과를 도출하지만, 이러한 데이터셋의 접근성이 제한되어 공정하고 투명한 벤치마킹이 어렵습니다. 또한, 이러한 접근법들은 2D 인물 동작을 우선시하고 비디오에서 카메라 동작의 중요성을 간과하여 제어가 제한적이고 불안정한 비디오 생성을 초래합니다. 학습 데이터의 신비를 풀기 위해, 우리는 인물 이미지 애니메이션을 위해 특별히 제작된 첫 번째 대규모 고품질 데이터셋인 HumanVid를 제시합니다. 이 데이터셋은 제작된 실제 세계 데이터와 합성 데이터를 결합합니다. 실제 세계 데이터의 경우, 인터넷에서 저작권이 없는 방대한 실제 비디오 컬렉션을 편집합니다. 신중하게 설계된 규칙 기반 필터링 전략을 통해 고품질 비디오를 포함하도록 보장하며, 결과적으로 1080P 해상도의 20,000개의 인물 중심 비디오 컬렉션을 확보합니다. 인물 및 카메라 동작 주석은 2D 포즈 추정기와 SLAM 기반 방법을 사용하여 수행됩니다. 합성 데이터의 경우, 기존에 사용 가능한 3D 자산을 보강하기 위해 2,300개의 저작권 없는 3D 아바타 자산을 수집합니다. 특히, 우리는 규칙 기반 카메라 궤적 생성 방법을 도입하여 합성 파이프라인이 다양한 정확한 카메라 동작 주석을 포함할 수 있도록 합니다. 이러한 주석은 실제 세계 데이터에서 거의 찾아볼 수 없습니다. HumanVid의 효과를 검증하기 위해, 우리는 CamAnimate(Camera-controllable Human Animation의 약자)라는 베이스라인 모델을 구축합니다. 이 모델은 인물과 카메라 동작을 모두 조건으로 고려합니다. 광범위한 실험을 통해, 우리의 HumanVid에 대한 간단한 베이스라인 훈련이 인물 포즈와 카메라 동작을 모두 제어하는 데 있어 최첨단 성능을 달성하며 새로운 벤치마크를 설정함을 입증합니다. 코드와 데이터는 https://github.com/zhenzhiwang/HumanVid/에서 공개될 예정입니다.
English
Human image animation involves generating videos from a character photo, allowing user control and unlocking potential for video and movie production. While recent approaches yield impressive results using high-quality training data, the inaccessibility of these datasets hampers fair and transparent benchmarking. Moreover, these approaches prioritize 2D human motion and overlook the significance of camera motions in videos, leading to limited control and unstable video generation.To demystify the training data, we present HumanVid, the first large-scale high-quality dataset tailored for human image animation, which combines crafted real-world and synthetic data. For the real-world data, we compile a vast collection of copyright-free real-world videos from the internet. Through a carefully designed rule-based filtering strategy, we ensure the inclusion of high-quality videos, resulting in a collection of 20K human-centric videos in 1080P resolution. Human and camera motion annotation is accomplished using a 2D pose estimator and a SLAM-based method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets to augment existing available 3D assets. Notably, we introduce a rule-based camera trajectory generation method, enabling the synthetic pipeline to incorporate diverse and precise camera motion annotation, which can rarely be found in real-world data. To verify the effectiveness of HumanVid, we establish a baseline model named CamAnimate, short for Camera-controllable Human Animation, that considers both human and camera motions as conditions. Through extensive experimentation, we demonstrate that such simple baseline training on our HumanVid achieves state-of-the-art performance in controlling both human pose and camera motions, setting a new benchmark. Code and data will be publicly available at https://github.com/zhenzhiwang/HumanVid/.

Summary

AI-Generated Summary

PDF263November 28, 2024