OmniHuman-1 : Repenser la mise à l'échelle des modèles d'animation humaine conditionnés en une étape

papers.abstract

L'animation humaine de bout en bout, telle que la génération humaine parlante pilotée par l'audio, a connu des avancées notables au cours des dernières années. Cependant, les méthodes existantes peinent toujours à s'étendre à des modèles de génération vidéo généraux de grande taille, limitant leur potentiel dans des applications réelles. Dans cet article, nous proposons OmniHuman, un cadre basé sur le Transformer de Diffusion qui met à l'échelle les données en mélangeant des conditions liées au mouvement lors de la phase d'entraînement. À cette fin, nous introduisons deux principes d'entraînement pour ces conditions mixtes, ainsi que l'architecture du modèle correspondant et la stratégie d'inférence. Ces conceptions permettent à OmniHuman de tirer pleinement parti de la génération de mouvement pilotée par les données, atteignant finalement une génération vidéo humaine hautement réaliste. Plus important encore, OmniHuman prend en charge divers contenus de portrait (gros plan du visage, portrait, demi-corps, corps entier), prend en charge à la fois la parole et le chant, gère les interactions humain-objet et les poses corporelles complexes, et s'adapte à différents styles d'images. Comparé aux méthodes existantes pilotées par l'audio de bout en bout, OmniHuman produit non seulement des vidéos plus réalistes, mais offre également une plus grande flexibilité dans les entrées. Il prend également en charge plusieurs modalités de pilotage (audio, vidéo et signaux de pilotage combinés). Des échantillons vidéo sont fournis sur la page du projet ttfamily (https://omnihuman-lab.github.io)

English

End-to-end human animation, such as audio-driven talking human generation, has undergone notable advancements in the recent few years. However, existing methods still struggle to scale up as large general video generation models, limiting their potential in real applications. In this paper, we propose OmniHuman, a Diffusion Transformer-based framework that scales up data by mixing motion-related conditions into the training phase. To this end, we introduce two training principles for these mixed conditions, along with the corresponding model architecture and inference strategy. These designs enable OmniHuman to fully leverage data-driven motion generation, ultimately achieving highly realistic human video generation. More importantly, OmniHuman supports various portrait contents (face close-up, portrait, half-body, full-body), supports both talking and singing, handles human-object interactions and challenging body poses, and accommodates different image styles. Compared to existing end-to-end audio-driven methods, OmniHuman not only produces more realistic videos, but also offers greater flexibility in inputs. It also supports multiple driving modalities (audio-driven, video-driven and combined driving signals). Video samples are provided on the ttfamily project page (https://omnihuman-lab.github.io)

OmniHuman-1 : Repenser la mise à l'échelle des modèles d'animation humaine conditionnés en une étape

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

papers.abstract

Support