DisCo: Controle Desacoplado para Geração de Dança Humana Referenciada no Mundo Real

Resumo

A IA generativa tem feito avanços significativos na área de visão computacional, particularmente na síntese de imagens/vídeos condicionada a descrições textuais. Apesar dos progressos, ainda existem desafios, especialmente na geração de conteúdo centrado em humanos, como a síntese de dança. Os métodos existentes de síntese de dança enfrentam dificuldades em reduzir a lacuna entre o conteúdo sintetizado e os cenários de dança do mundo real. Neste artigo, definimos um novo problema: a Geração de Dança Humana Referenciada, que se concentra em cenários de dança do mundo real com três propriedades importantes: (i) Fidelidade: a síntese deve preservar a aparência tanto do primeiro plano (sujeito humano) quanto do fundo da imagem de referência, e seguir precisamente a pose alvo; (ii) Generalização: o modelo deve ser capaz de generalizar para sujeitos humanos, fundos e poses não vistos anteriormente; (iii) Composicionalidade: deve permitir a composição de sujeitos, fundos e poses vistos/não vistos de diferentes fontes. Para enfrentar esses desafios, introduzimos uma nova abordagem, chamada DISCO, que inclui uma arquitetura de modelo inovadora com controle desacoplado para melhorar a fidelidade e a composicionalidade da síntese de dança, além de um pré-treinamento eficaz de atributos humanos para uma melhor generalização para humanos não vistos. Resultados qualitativos e quantitativos extensivos demonstram que o DISCO pode gerar imagens e vídeos de dança humana de alta qualidade, com aparências diversas e movimentos flexíveis. Código, demonstração, vídeo e visualizações estão disponíveis em: https://disco-dance.github.io/.

English

Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synthesis. Existing dance synthesis methods struggle with the gap between synthesized content and real-world dance scenarios. In this paper, we define a new problem setting: Referring Human Dance Generation, which focuses on real-world dance scenarios with three important properties: (i) Faithfulness: the synthesis should retain the appearance of both human subject foreground and background from the reference image, and precisely follow the target pose; (ii) Generalizability: the model should generalize to unseen human subjects, backgrounds, and poses; (iii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce a novel approach, DISCO, which includes a novel model architecture with disentangled control to improve the faithfulness and compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DISCO can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.

DisCo: Controle Desacoplado para Geração de Dança Humana Referenciada no Mundo Real

DisCo: Disentangled Control for Referring Human Dance Generation in Real World

Resumo

Support