DisCo: Control Desacoplado para la Generación de Danza Humana Referencial en el Mundo Real
DisCo: Disentangled Control for Referring Human Dance Generation in Real World
June 30, 2023
Autores: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
cs.AI
Resumen
La IA generativa ha logrado avances significativos en visión por computadora, particularmente en la síntesis de imágenes/videos condicionada por descripciones de texto. A pesar de estos avances, sigue siendo un desafío, especialmente en la generación de contenido centrado en humanos, como la síntesis de danza. Los métodos existentes de síntesis de danza luchan con la brecha entre el contenido sintetizado y los escenarios de danza del mundo real. En este artículo, definimos un nuevo problema: la Generación de Danza Humana Referencial, que se centra en escenarios de danza del mundo real con tres propiedades importantes: (i) Fidelidad: la síntesis debe conservar la apariencia tanto del sujeto humano en primer plano como del fondo de la imagen de referencia, y seguir precisamente la pose objetivo; (ii) Generalización: el modelo debe generalizar a sujetos humanos, fondos y poses no vistos; (iii) Composición: debe permitir la composición de sujetos, fondos y poses vistos/no vistos de diferentes fuentes. Para abordar estos desafíos, presentamos un enfoque novedoso, DISCO, que incluye una arquitectura de modelo con control desacoplado para mejorar la fidelidad y composición de la síntesis de danza, y un pre-entrenamiento efectivo de atributos humanos para una mejor generalización a humanos no vistos. Resultados cualitativos y cuantitativos extensos demuestran que DISCO puede generar imágenes y videos de danza humana de alta calidad con apariencias diversas y movimientos flexibles. El código, demo, video y visualizaciones están disponibles en: https://disco-dance.github.io/.
English
Generative AI has made significant strides in computer vision, particularly
in image/video synthesis conditioned on text descriptions. Despite the
advancements, it remains challenging especially in the generation of
human-centric content such as dance synthesis. Existing dance synthesis methods
struggle with the gap between synthesized content and real-world dance
scenarios. In this paper, we define a new problem setting: Referring Human
Dance Generation, which focuses on real-world dance scenarios with three
important properties: (i) Faithfulness: the synthesis should retain the
appearance of both human subject foreground and background from the reference
image, and precisely follow the target pose; (ii) Generalizability: the model
should generalize to unseen human subjects, backgrounds, and poses; (iii)
Compositionality: it should allow for composition of seen/unseen subjects,
backgrounds, and poses from different sources. To address these challenges, we
introduce a novel approach, DISCO, which includes a novel model architecture
with disentangled control to improve the faithfulness and compositionality of
dance synthesis, and an effective human attribute pre-training for better
generalizability to unseen humans. Extensive qualitative and quantitative
results demonstrate that DISCO can generate high-quality human dance images and
videos with diverse appearances and flexible motions. Code, demo, video and
visualization are available at: https://disco-dance.github.io/.