DisCo: Control Desacoplado para la Generación de Danza Humana Referencial en el Mundo Real

Resumen

La IA generativa ha logrado avances significativos en visión por computadora, particularmente en la síntesis de imágenes/videos condicionada por descripciones de texto. A pesar de estos avances, sigue siendo un desafío, especialmente en la generación de contenido centrado en humanos, como la síntesis de danza. Los métodos existentes de síntesis de danza luchan con la brecha entre el contenido sintetizado y los escenarios de danza del mundo real. En este artículo, definimos un nuevo problema: la Generación de Danza Humana Referencial, que se centra en escenarios de danza del mundo real con tres propiedades importantes: (i) Fidelidad: la síntesis debe conservar la apariencia tanto del sujeto humano en primer plano como del fondo de la imagen de referencia, y seguir precisamente la pose objetivo; (ii) Generalización: el modelo debe generalizar a sujetos humanos, fondos y poses no vistos; (iii) Composición: debe permitir la composición de sujetos, fondos y poses vistos/no vistos de diferentes fuentes. Para abordar estos desafíos, presentamos un enfoque novedoso, DISCO, que incluye una arquitectura de modelo con control desacoplado para mejorar la fidelidad y composición de la síntesis de danza, y un pre-entrenamiento efectivo de atributos humanos para una mejor generalización a humanos no vistos. Resultados cualitativos y cuantitativos extensos demuestran que DISCO puede generar imágenes y videos de danza humana de alta calidad con apariencias diversas y movimientos flexibles. El código, demo, video y visualizaciones están disponibles en: https://disco-dance.github.io/.

English

Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synthesis. Existing dance synthesis methods struggle with the gap between synthesized content and real-world dance scenarios. In this paper, we define a new problem setting: Referring Human Dance Generation, which focuses on real-world dance scenarios with three important properties: (i) Faithfulness: the synthesis should retain the appearance of both human subject foreground and background from the reference image, and precisely follow the target pose; (ii) Generalizability: the model should generalize to unseen human subjects, backgrounds, and poses; (iii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce a novel approach, DISCO, which includes a novel model architecture with disentangled control to improve the faithfulness and compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DISCO can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.

DisCo: Control Desacoplado para la Generación de Danza Humana Referencial en el Mundo Real

DisCo: Disentangled Control for Referring Human Dance Generation in Real World

Resumen

Support