DisCo: Controle Desacoplado para Geração de Dança Humana Referenciada no Mundo Real
DisCo: Disentangled Control for Referring Human Dance Generation in Real World
June 30, 2023
Autores: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
cs.AI
Resumo
A IA generativa tem feito avanços significativos na área de visão computacional, particularmente na síntese de imagens/vídeos condicionada a descrições textuais. Apesar dos progressos, ainda existem desafios, especialmente na geração de conteúdo centrado em humanos, como a síntese de dança. Os métodos existentes de síntese de dança enfrentam dificuldades em reduzir a lacuna entre o conteúdo sintetizado e os cenários de dança do mundo real. Neste artigo, definimos um novo problema: a Geração de Dança Humana Referenciada, que se concentra em cenários de dança do mundo real com três propriedades importantes: (i) Fidelidade: a síntese deve preservar a aparência tanto do primeiro plano (sujeito humano) quanto do fundo da imagem de referência, e seguir precisamente a pose alvo; (ii) Generalização: o modelo deve ser capaz de generalizar para sujeitos humanos, fundos e poses não vistos anteriormente; (iii) Composicionalidade: deve permitir a composição de sujeitos, fundos e poses vistos/não vistos de diferentes fontes. Para enfrentar esses desafios, introduzimos uma nova abordagem, chamada DISCO, que inclui uma arquitetura de modelo inovadora com controle desacoplado para melhorar a fidelidade e a composicionalidade da síntese de dança, além de um pré-treinamento eficaz de atributos humanos para uma melhor generalização para humanos não vistos. Resultados qualitativos e quantitativos extensivos demonstram que o DISCO pode gerar imagens e vídeos de dança humana de alta qualidade, com aparências diversas e movimentos flexíveis. Código, demonstração, vídeo e visualizações estão disponíveis em: https://disco-dance.github.io/.
English
Generative AI has made significant strides in computer vision, particularly
in image/video synthesis conditioned on text descriptions. Despite the
advancements, it remains challenging especially in the generation of
human-centric content such as dance synthesis. Existing dance synthesis methods
struggle with the gap between synthesized content and real-world dance
scenarios. In this paper, we define a new problem setting: Referring Human
Dance Generation, which focuses on real-world dance scenarios with three
important properties: (i) Faithfulness: the synthesis should retain the
appearance of both human subject foreground and background from the reference
image, and precisely follow the target pose; (ii) Generalizability: the model
should generalize to unseen human subjects, backgrounds, and poses; (iii)
Compositionality: it should allow for composition of seen/unseen subjects,
backgrounds, and poses from different sources. To address these challenges, we
introduce a novel approach, DISCO, which includes a novel model architecture
with disentangled control to improve the faithfulness and compositionality of
dance synthesis, and an effective human attribute pre-training for better
generalizability to unseen humans. Extensive qualitative and quantitative
results demonstrate that DISCO can generate high-quality human dance images and
videos with diverse appearances and flexible motions. Code, demo, video and
visualization are available at: https://disco-dance.github.io/.