HumanVid: Расшифровка обучающих данных для управляемой камерой человеческого изображения.
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
July 24, 2024
Авторы: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI
Аннотация
Анимация человеческого изображения включает создание видеороликов из фотографии персонажа, позволяя пользователю контролировать процесс и раскрывая потенциал для производства видео и фильмов. Хотя недавние подходы достигают впечатляющих результатов с использованием высококачественных обучающих данных, недоступность этих наборов данных затрудняет справедливое и прозрачное сравнение. Более того, эти подходы придают приоритет движению человека в 2D и пренебрегают значимостью движений камеры в видеороликах, что приводит к ограниченному контролю и нестабильной генерации видео. Для разъяснения обучающих данных мы представляем HumanVid, первый крупномасштабный набор данных высокого качества, разработанный специально для анимации человеческого изображения, который объединяет созданные реальные и синтетические данные. Для реальных данных мы собираем обширную коллекцию видеороликов из мира интернета, свободных от авторских прав. Через тщательно разработанную стратегию фильтрации на основе правил мы гарантируем включение видеороликов высокого качества, что приводит к коллекции из 20 тыс. видеороликов, сосредоточенных на людях, с разрешением 1080P. Аннотация движения человека и камеры выполняется с помощью оценщика позы в 2D и метода на основе SLAM. Для синтетических данных мы собираем 2 300 свободных от авторских прав 3D-модели аватаров для дополнения уже доступных 3D-активов. Особенно стоит отметить, что мы представляем метод генерации траектории камеры на основе правил, позволяющий синтетическому конвейеру включать разнообразную и точную аннотацию движения камеры, что редко встречается в реальных данных. Для проверки эффективности HumanVid мы устанавливаем базовую модель под названием CamAnimate, что означает Camera-controllable Human Animation, учитывающую как движения человека, так и камеры в качестве условий. Через обширные эксперименты мы демонстрируем, что такое простое базовое обучение на нашем HumanVid достигает передовых результатов в контроле как позы человека, так и движений камеры, устанавливая новый стандарт. Код и данные будут общедоступны по адресу https://github.com/zhenzhiwang/HumanVid/.
English
Human image animation involves generating videos from a character photo,
allowing user control and unlocking potential for video and movie production.
While recent approaches yield impressive results using high-quality training
data, the inaccessibility of these datasets hampers fair and transparent
benchmarking. Moreover, these approaches prioritize 2D human motion and
overlook the significance of camera motions in videos, leading to limited
control and unstable video generation.To demystify the training data, we
present HumanVid, the first large-scale high-quality dataset tailored for human
image animation, which combines crafted real-world and synthetic data. For the
real-world data, we compile a vast collection of copyright-free real-world
videos from the internet. Through a carefully designed rule-based filtering
strategy, we ensure the inclusion of high-quality videos, resulting in a
collection of 20K human-centric videos in 1080P resolution. Human and camera
motion annotation is accomplished using a 2D pose estimator and a SLAM-based
method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets
to augment existing available 3D assets. Notably, we introduce a rule-based
camera trajectory generation method, enabling the synthetic pipeline to
incorporate diverse and precise camera motion annotation, which can rarely be
found in real-world data. To verify the effectiveness of HumanVid, we establish
a baseline model named CamAnimate, short for Camera-controllable Human
Animation, that considers both human and camera motions as conditions. Through
extensive experimentation, we demonstrate that such simple baseline training on
our HumanVid achieves state-of-the-art performance in controlling both human
pose and camera motions, setting a new benchmark. Code and data will be
publicly available at https://github.com/zhenzhiwang/HumanVid/.Summary
AI-Generated Summary