HumanVid: Desmistificando Dados de Treinamento para Animação de Imagens Humanas Controladas por Câmera
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
July 24, 2024
Autores: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
cs.AI
Resumo
A animação de imagem humana envolve a geração de vídeos a partir de uma foto de personagem, permitindo o controle do usuário e desbloqueando o potencial para produção de vídeos e filmes. Embora abordagens recentes forneçam resultados impressionantes usando dados de treinamento de alta qualidade, a inacessibilidade desses conjuntos de dados dificulta a avaliação justa e transparente. Além disso, essas abordagens priorizam o movimento humano 2D e negligenciam a importância dos movimentos da câmera nos vídeos, resultando em controle limitado e geração instável de vídeos. Para desmistificar os dados de treinamento, apresentamos o HumanVid, o primeiro conjunto de dados de alta qualidade em grande escala projetado para animação de imagem humana, que combina dados do mundo real elaborados e dados sintéticos. Para os dados do mundo real, compilamos uma vasta coleção de vídeos do mundo real isentos de direitos autorais da internet. Através de uma estratégia de filtragem baseada em regras cuidadosamente projetada, garantimos a inclusão de vídeos de alta qualidade, resultando em uma coleção de 20 mil vídeos centrados em humanos com resolução de 1080P. A anotação de movimento humano e de câmera é realizada usando um estimador de pose 2D e um método baseado em SLAM. Para os dados sintéticos, reunimos 2.300 ativos de avatar 3D isentos de direitos autorais para complementar os ativos 3D disponíveis. Notavelmente, introduzimos um método de geração de trajetória de câmera baseado em regras, permitindo que o pipeline sintético incorpore anotações de movimento de câmera diversas e precisas, o que raramente é encontrado em dados do mundo real. Para verificar a eficácia do HumanVid, estabelecemos um modelo de referência chamado CamAnimate, abreviação de Animação Humana Controlável por Câmera, que considera tanto os movimentos humanos quanto os da câmera como condições. Através de experimentação extensiva, demonstramos que um treinamento de linha de base tão simples em nosso HumanVid alcança desempenho de ponta no controle tanto da pose humana quanto dos movimentos da câmera, estabelecendo um novo padrão. O código e os dados estarão disponíveis publicamente em https://github.com/zhenzhiwang/HumanVid/.
English
Human image animation involves generating videos from a character photo,
allowing user control and unlocking potential for video and movie production.
While recent approaches yield impressive results using high-quality training
data, the inaccessibility of these datasets hampers fair and transparent
benchmarking. Moreover, these approaches prioritize 2D human motion and
overlook the significance of camera motions in videos, leading to limited
control and unstable video generation.To demystify the training data, we
present HumanVid, the first large-scale high-quality dataset tailored for human
image animation, which combines crafted real-world and synthetic data. For the
real-world data, we compile a vast collection of copyright-free real-world
videos from the internet. Through a carefully designed rule-based filtering
strategy, we ensure the inclusion of high-quality videos, resulting in a
collection of 20K human-centric videos in 1080P resolution. Human and camera
motion annotation is accomplished using a 2D pose estimator and a SLAM-based
method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets
to augment existing available 3D assets. Notably, we introduce a rule-based
camera trajectory generation method, enabling the synthetic pipeline to
incorporate diverse and precise camera motion annotation, which can rarely be
found in real-world data. To verify the effectiveness of HumanVid, we establish
a baseline model named CamAnimate, short for Camera-controllable Human
Animation, that considers both human and camera motions as conditions. Through
extensive experimentation, we demonstrate that such simple baseline training on
our HumanVid achieves state-of-the-art performance in controlling both human
pose and camera motions, setting a new benchmark. Code and data will be
publicly available at https://github.com/zhenzhiwang/HumanVid/.Summary
AI-Generated Summary