ChatPaper.aiChatPaper

DisCo: Раздельное управление для генерации танцующих людей по описанию в реальном мире

DisCo: Disentangled Control for Referring Human Dance Generation in Real World

June 30, 2023
Авторы: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
cs.AI

Аннотация

Генеративный ИИ достиг значительных успехов в области компьютерного зрения, особенно в синтезе изображений и видео на основе текстовых описаний. Несмотря на прогресс, задача остается сложной, особенно в генерации контента, связанного с человеком, такого как синтез танцев. Существующие методы синтеза танцев сталкиваются с разрывом между синтезированным контентом и реальными танцевальными сценами. В данной статье мы определяем новую постановку задачи: Генерация Танца с Указанием на Человека, которая фокусируется на реальных танцевальных сценах с тремя важными свойствами: (i) Достоверность: синтез должен сохранять внешний вид как переднего плана с человеком, так и фона из эталонного изображения и точно следовать целевой позе; (ii) Обобщаемость: модель должна обобщать на невидимых ранее людей, фоны и позы; (iii) Композиционность: она должна позволять комбинировать видимые/невидимые объекты, фоны и позы из различных источников. Для решения этих задач мы представляем новый подход DISCO, который включает в себя новую архитектуру модели с разделенным управлением для повышения достоверности и композиционности синтеза танцев, а также эффективное предварительное обучение атрибутов человека для лучшей обобщаемости на невидимых людей. Обширные качественные и количественные результаты демонстрируют, что DISCO способен генерировать высококачественные изображения и видео танцев с разнообразными внешними видами и гибкими движениями. Код, демо, видео и визуализация доступны по адресу: https://disco-dance.github.io/.
English
Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synthesis. Existing dance synthesis methods struggle with the gap between synthesized content and real-world dance scenarios. In this paper, we define a new problem setting: Referring Human Dance Generation, which focuses on real-world dance scenarios with three important properties: (i) Faithfulness: the synthesis should retain the appearance of both human subject foreground and background from the reference image, and precisely follow the target pose; (ii) Generalizability: the model should generalize to unseen human subjects, backgrounds, and poses; (iii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce a novel approach, DISCO, which includes a novel model architecture with disentangled control to improve the faithfulness and compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DISCO can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.
PDF252December 15, 2024