DisCo: Ontwarrende Controle voor de Generatie van Verwijzende Menselijke Dans in de Echte Wereld
DisCo: Disentangled Control for Referring Human Dance Generation in Real World
June 30, 2023
Auteurs: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
cs.AI
Samenvatting
Generatieve AI heeft aanzienlijke vooruitgang geboekt in computervisie, met name
bij het synthetiseren van afbeeldingen/video's op basis van tekstbeschrijvingen. Ondanks deze
vooruitgang blijft het een uitdaging, vooral bij het genereren van
mensgerichte inhoud zoals danssynthese. Bestaande methoden voor danssynthese
worstelen met de kloof tussen gesynthetiseerde inhoud en realistische dansscenario's.
In dit artikel definiëren we een nieuwe probleemstelling: Referring Human
Dance Generation, die zich richt op realistische dansscenario's met drie
belangrijke eigenschappen: (i) Trouw: de synthese moet het uiterlijk van zowel
de menselijke voorgrond als de achtergrond van de referentieafbeelding behouden,
en precies de doelpose volgen; (ii) Generaliseerbaarheid: het model
moet kunnen generaliseren naar onbekende menselijke onderwerpen, achtergronden
en poses; (iii) Samenstelbaarheid: het moet mogelijk zijn om bekende/onbekende
onderwerpen, achtergronden en poses uit verschillende bronnen te combineren. Om
deze uitdagingen aan te pakken, introduceren we een nieuwe aanpak, DISCO, die
een nieuw modelarchitectuur omvat met ontkoppelde controle om de trouw en
samenstelbaarheid van danssynthese te verbeteren, en een effectieve voorafgaande
training van menselijke attributen voor betere generaliseerbaarheid naar
onbekende personen. Uitgebreide kwalitatieve en kwantitatieve resultaten
demonstreren dat DISCO hoogwaardige afbeeldingen en video's van menselijke dans
kan genereren met diverse uiterlijken en flexibele bewegingen. Code, demo, video
en visualisatie zijn beschikbaar op: https://disco-dance.github.io/.
English
Generative AI has made significant strides in computer vision, particularly
in image/video synthesis conditioned on text descriptions. Despite the
advancements, it remains challenging especially in the generation of
human-centric content such as dance synthesis. Existing dance synthesis methods
struggle with the gap between synthesized content and real-world dance
scenarios. In this paper, we define a new problem setting: Referring Human
Dance Generation, which focuses on real-world dance scenarios with three
important properties: (i) Faithfulness: the synthesis should retain the
appearance of both human subject foreground and background from the reference
image, and precisely follow the target pose; (ii) Generalizability: the model
should generalize to unseen human subjects, backgrounds, and poses; (iii)
Compositionality: it should allow for composition of seen/unseen subjects,
backgrounds, and poses from different sources. To address these challenges, we
introduce a novel approach, DISCO, which includes a novel model architecture
with disentangled control to improve the faithfulness and compositionality of
dance synthesis, and an effective human attribute pre-training for better
generalizability to unseen humans. Extensive qualitative and quantitative
results demonstrate that DISCO can generate high-quality human dance images and
videos with diverse appearances and flexible motions. Code, demo, video and
visualization are available at: https://disco-dance.github.io/.