OmniHuman-1 : Repenser la mise à l'échelle des modèles d'animation humaine conditionnés en une étapeOmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human
Animation Models
L'animation humaine de bout en bout, telle que la génération humaine parlante pilotée par l'audio, a connu des avancées notables au cours des dernières années. Cependant, les méthodes existantes peinent toujours à s'étendre à des modèles de génération vidéo généraux de grande taille, limitant leur potentiel dans des applications réelles. Dans cet article, nous proposons OmniHuman, un cadre basé sur le Transformer de Diffusion qui met à l'échelle les données en mélangeant des conditions liées au mouvement lors de la phase d'entraînement. À cette fin, nous introduisons deux principes d'entraînement pour ces conditions mixtes, ainsi que l'architecture du modèle correspondant et la stratégie d'inférence. Ces conceptions permettent à OmniHuman de tirer pleinement parti de la génération de mouvement pilotée par les données, atteignant finalement une génération vidéo humaine hautement réaliste. Plus important encore, OmniHuman prend en charge divers contenus de portrait (gros plan du visage, portrait, demi-corps, corps entier), prend en charge à la fois la parole et le chant, gère les interactions humain-objet et les poses corporelles complexes, et s'adapte à différents styles d'images. Comparé aux méthodes existantes pilotées par l'audio de bout en bout, OmniHuman produit non seulement des vidéos plus réalistes, mais offre également une plus grande flexibilité dans les entrées. Il prend également en charge plusieurs modalités de pilotage (audio, vidéo et signaux de pilotage combinés). Des échantillons vidéo sont fournis sur la page du projet ttfamily (https://omnihuman-lab.github.io)