DisCo : Contrôle Disentangled pour la Génération de Danse Humaine Référentielle dans le Monde Réel
DisCo: Disentangled Control for Referring Human Dance Generation in Real World
June 30, 2023
Auteurs: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
cs.AI
Résumé
L'IA générative a réalisé des progrès significatifs en vision par ordinateur, notamment dans la synthèse d'images/vidéos conditionnée par des descriptions textuelles. Malgré ces avancées, des défis persistent, en particulier dans la génération de contenu centré sur l'humain, comme la synthèse de danse. Les méthodes existantes de synthèse de danse peinent à combler l'écart entre le contenu synthétisé et les scénarios de danse réels. Dans cet article, nous définissons un nouveau cadre de problème : la Génération de Danse Humaine Référencée, qui se concentre sur des scénarios de danse réels avec trois propriétés importantes : (i) Fidélité : la synthèse doit conserver l'apparence du sujet humain en premier plan et de l'arrière-plan de l'image de référence, et suivre précisément la pose cible ; (ii) Généralisabilité : le modèle doit pouvoir généraliser à des sujets humains, arrière-plans et poses non vus ; (iii) Compositionnalité : il doit permettre la composition de sujets, arrière-plans et poses vus/non vus provenant de différentes sources. Pour relever ces défis, nous proposons une nouvelle approche, DISCO, qui inclut une architecture de modèle innovante avec un contrôle désentrelacé pour améliorer la fidélité et la compositionnalité de la synthèse de danse, ainsi qu'un pré-entraînement efficace des attributs humains pour une meilleure généralisabilité à des humains non vus. Des résultats qualitatifs et quantitatifs approfondis démontrent que DISCO peut générer des images et vidéos de danse humaine de haute qualité avec des apparences variées et des mouvements flexibles. Le code, la démo, la vidéo et les visualisations sont disponibles à l'adresse : https://disco-dance.github.io/.
English
Generative AI has made significant strides in computer vision, particularly
in image/video synthesis conditioned on text descriptions. Despite the
advancements, it remains challenging especially in the generation of
human-centric content such as dance synthesis. Existing dance synthesis methods
struggle with the gap between synthesized content and real-world dance
scenarios. In this paper, we define a new problem setting: Referring Human
Dance Generation, which focuses on real-world dance scenarios with three
important properties: (i) Faithfulness: the synthesis should retain the
appearance of both human subject foreground and background from the reference
image, and precisely follow the target pose; (ii) Generalizability: the model
should generalize to unseen human subjects, backgrounds, and poses; (iii)
Compositionality: it should allow for composition of seen/unseen subjects,
backgrounds, and poses from different sources. To address these challenges, we
introduce a novel approach, DISCO, which includes a novel model architecture
with disentangled control to improve the faithfulness and compositionality of
dance synthesis, and an effective human attribute pre-training for better
generalizability to unseen humans. Extensive qualitative and quantitative
results demonstrate that DISCO can generate high-quality human dance images and
videos with diverse appearances and flexible motions. Code, demo, video and
visualization are available at: https://disco-dance.github.io/.