DisCo: Ontwarrende Controle voor de Generatie van Verwijzende Menselijke Dans in de Echte Wereld

Samenvatting

Generatieve AI heeft aanzienlijke vooruitgang geboekt in computervisie, met name bij het synthetiseren van afbeeldingen/video's op basis van tekstbeschrijvingen. Ondanks deze vooruitgang blijft het een uitdaging, vooral bij het genereren van mensgerichte inhoud zoals danssynthese. Bestaande methoden voor danssynthese worstelen met de kloof tussen gesynthetiseerde inhoud en realistische dansscenario's. In dit artikel definiëren we een nieuwe probleemstelling: Referring Human Dance Generation, die zich richt op realistische dansscenario's met drie belangrijke eigenschappen: (i) Trouw: de synthese moet het uiterlijk van zowel de menselijke voorgrond als de achtergrond van de referentieafbeelding behouden, en precies de doelpose volgen; (ii) Generaliseerbaarheid: het model moet kunnen generaliseren naar onbekende menselijke onderwerpen, achtergronden en poses; (iii) Samenstelbaarheid: het moet mogelijk zijn om bekende/onbekende onderwerpen, achtergronden en poses uit verschillende bronnen te combineren. Om deze uitdagingen aan te pakken, introduceren we een nieuwe aanpak, DISCO, die een nieuw modelarchitectuur omvat met ontkoppelde controle om de trouw en samenstelbaarheid van danssynthese te verbeteren, en een effectieve voorafgaande training van menselijke attributen voor betere generaliseerbaarheid naar onbekende personen. Uitgebreide kwalitatieve en kwantitatieve resultaten demonstreren dat DISCO hoogwaardige afbeeldingen en video's van menselijke dans kan genereren met diverse uiterlijken en flexibele bewegingen. Code, demo, video en visualisatie zijn beschikbaar op: https://disco-dance.github.io/.

English

Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synthesis. Existing dance synthesis methods struggle with the gap between synthesized content and real-world dance scenarios. In this paper, we define a new problem setting: Referring Human Dance Generation, which focuses on real-world dance scenarios with three important properties: (i) Faithfulness: the synthesis should retain the appearance of both human subject foreground and background from the reference image, and precisely follow the target pose; (ii) Generalizability: the model should generalize to unseen human subjects, backgrounds, and poses; (iii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce a novel approach, DISCO, which includes a novel model architecture with disentangled control to improve the faithfulness and compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DISCO can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.

DisCo: Ontwarrende Controle voor de Generatie van Verwijzende Menselijke Dans in de Echte Wereld

DisCo: Disentangled Control for Referring Human Dance Generation in Real World

Samenvatting

Support