DisCo: Entkoppelte Steuerung für die Generierung von menschlichen Tanzbewegungen mit Referenz in der realen Welt
DisCo: Disentangled Control for Referring Human Dance Generation in Real World
June 30, 2023
Autoren: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
cs.AI
Zusammenfassung
Generative KI hat bedeutende Fortschritte in der Computer Vision gemacht, insbesondere bei der Bild-/Videosynthese, die auf Textbeschreibungen basiert. Trotz dieser Fortschritte bleibt es eine Herausforderung, insbesondere bei der Erzeugung von menschenzentrierten Inhalten wie der Tanzsynthese. Bestehende Methoden zur Tanzsynthese kämpfen mit der Lücke zwischen synthetisierten Inhalten und realen Tanzszenarien. In diesem Artikel definieren wir ein neues Problemfeld: Referring Human Dance Generation, das sich auf reale Tanzszenarien mit drei wichtigen Eigenschaften konzentriert: (i) Treue: Die Synthese sollte das Erscheinungsbild sowohl des menschlichen Vordergrunds als auch des Hintergrunds des Referenzbildes beibehalten und die Zielpose genau einhalten; (ii) Generalisierbarkeit: Das Modell sollte auf unbekannte menschliche Subjekte, Hintergründe und Posen verallgemeinern können; (iii) Kompositionalität: Es sollte die Komposition von bekannten/unbekannten Subjekten, Hintergründen und Posen aus verschiedenen Quellen ermöglichen. Um diese Herausforderungen zu bewältigen, stellen wir einen neuartigen Ansatz vor, DISCO, der eine neuartige Modellarchitektur mit entkoppelter Steuerung umfasst, um die Treue und Kompositionalität der Tanzsynthese zu verbessern, sowie ein effektives Pre-Training für menschliche Attribute für eine bessere Generalisierbarkeit auf unbekannte Menschen. Umfangreiche qualitative und quantitative Ergebnisse zeigen, dass DISCO hochwertige Tanzbilder und -videos mit vielfältigen Erscheinungsbildern und flexiblen Bewegungen erzeugen kann. Code, Demo, Video und Visualisierung sind verfügbar unter: https://disco-dance.github.io/.
English
Generative AI has made significant strides in computer vision, particularly
in image/video synthesis conditioned on text descriptions. Despite the
advancements, it remains challenging especially in the generation of
human-centric content such as dance synthesis. Existing dance synthesis methods
struggle with the gap between synthesized content and real-world dance
scenarios. In this paper, we define a new problem setting: Referring Human
Dance Generation, which focuses on real-world dance scenarios with three
important properties: (i) Faithfulness: the synthesis should retain the
appearance of both human subject foreground and background from the reference
image, and precisely follow the target pose; (ii) Generalizability: the model
should generalize to unseen human subjects, backgrounds, and poses; (iii)
Compositionality: it should allow for composition of seen/unseen subjects,
backgrounds, and poses from different sources. To address these challenges, we
introduce a novel approach, DISCO, which includes a novel model architecture
with disentangled control to improve the faithfulness and compositionality of
dance synthesis, and an effective human attribute pre-training for better
generalizability to unseen humans. Extensive qualitative and quantitative
results demonstrate that DISCO can generate high-quality human dance images and
videos with diverse appearances and flexible motions. Code, demo, video and
visualization are available at: https://disco-dance.github.io/.