OmniHuman-1 : Repenser la mise à l'échelle des modèles d'animation humaine conditionnés en une étape
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
February 3, 2025
Auteurs: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI
Résumé
L'animation humaine de bout en bout, telle que la génération humaine parlante pilotée par l'audio, a connu des avancées notables au cours des dernières années. Cependant, les méthodes existantes peinent toujours à s'étendre à des modèles de génération vidéo généraux de grande taille, limitant leur potentiel dans des applications réelles. Dans cet article, nous proposons OmniHuman, un cadre basé sur le Transformer de Diffusion qui met à l'échelle les données en mélangeant des conditions liées au mouvement lors de la phase d'entraînement. À cette fin, nous introduisons deux principes d'entraînement pour ces conditions mixtes, ainsi que l'architecture du modèle correspondant et la stratégie d'inférence. Ces conceptions permettent à OmniHuman de tirer pleinement parti de la génération de mouvement pilotée par les données, atteignant finalement une génération vidéo humaine hautement réaliste. Plus important encore, OmniHuman prend en charge divers contenus de portrait (gros plan du visage, portrait, demi-corps, corps entier), prend en charge à la fois la parole et le chant, gère les interactions humain-objet et les poses corporelles complexes, et s'adapte à différents styles d'images. Comparé aux méthodes existantes pilotées par l'audio de bout en bout, OmniHuman produit non seulement des vidéos plus réalistes, mais offre également une plus grande flexibilité dans les entrées. Il prend également en charge plusieurs modalités de pilotage (audio, vidéo et signaux de pilotage combinés). Des échantillons vidéo sont fournis sur la page du projet ttfamily (https://omnihuman-lab.github.io)
English
End-to-end human animation, such as audio-driven talking human generation,
has undergone notable advancements in the recent few years. However, existing
methods still struggle to scale up as large general video generation models,
limiting their potential in real applications. In this paper, we propose
OmniHuman, a Diffusion Transformer-based framework that scales up data by
mixing motion-related conditions into the training phase. To this end, we
introduce two training principles for these mixed conditions, along with the
corresponding model architecture and inference strategy. These designs enable
OmniHuman to fully leverage data-driven motion generation, ultimately achieving
highly realistic human video generation. More importantly, OmniHuman supports
various portrait contents (face close-up, portrait, half-body, full-body),
supports both talking and singing, handles human-object interactions and
challenging body poses, and accommodates different image styles. Compared to
existing end-to-end audio-driven methods, OmniHuman not only produces more
realistic videos, but also offers greater flexibility in inputs. It also
supports multiple driving modalities (audio-driven, video-driven and combined
driving signals). Video samples are provided on the ttfamily project page
(https://omnihuman-lab.github.io)Summary
AI-Generated Summary