DisCo : Contrôle Disentangled pour la Génération de Danse Humaine Référentielle dans le Monde Réel

Résumé

L'IA générative a réalisé des progrès significatifs en vision par ordinateur, notamment dans la synthèse d'images/vidéos conditionnée par des descriptions textuelles. Malgré ces avancées, des défis persistent, en particulier dans la génération de contenu centré sur l'humain, comme la synthèse de danse. Les méthodes existantes de synthèse de danse peinent à combler l'écart entre le contenu synthétisé et les scénarios de danse réels. Dans cet article, nous définissons un nouveau cadre de problème : la Génération de Danse Humaine Référencée, qui se concentre sur des scénarios de danse réels avec trois propriétés importantes : (i) Fidélité : la synthèse doit conserver l'apparence du sujet humain en premier plan et de l'arrière-plan de l'image de référence, et suivre précisément la pose cible ; (ii) Généralisabilité : le modèle doit pouvoir généraliser à des sujets humains, arrière-plans et poses non vus ; (iii) Compositionnalité : il doit permettre la composition de sujets, arrière-plans et poses vus/non vus provenant de différentes sources. Pour relever ces défis, nous proposons une nouvelle approche, DISCO, qui inclut une architecture de modèle innovante avec un contrôle désentrelacé pour améliorer la fidélité et la compositionnalité de la synthèse de danse, ainsi qu'un pré-entraînement efficace des attributs humains pour une meilleure généralisabilité à des humains non vus. Des résultats qualitatifs et quantitatifs approfondis démontrent que DISCO peut générer des images et vidéos de danse humaine de haute qualité avec des apparences variées et des mouvements flexibles. Le code, la démo, la vidéo et les visualisations sont disponibles à l'adresse : https://disco-dance.github.io/.

English

Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synthesis. Existing dance synthesis methods struggle with the gap between synthesized content and real-world dance scenarios. In this paper, we define a new problem setting: Referring Human Dance Generation, which focuses on real-world dance scenarios with three important properties: (i) Faithfulness: the synthesis should retain the appearance of both human subject foreground and background from the reference image, and precisely follow the target pose; (ii) Generalizability: the model should generalize to unseen human subjects, backgrounds, and poses; (iii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce a novel approach, DISCO, which includes a novel model architecture with disentangled control to improve the faithfulness and compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DISCO can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.

DisCo : Contrôle Disentangled pour la Génération de Danse Humaine Référentielle dans le Monde Réel

DisCo: Disentangled Control for Referring Human Dance Generation in Real World

Résumé

Support