DisCo:現実世界における参照人間ダンス生成のための分離制御
DisCo: Disentangled Control for Referring Human Dance Generation in Real World
June 30, 2023
著者: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
cs.AI
要旨
生成AIは、特にテキスト記述に基づく画像/動画合成において、コンピュータビジョン分野で大きな進展を遂げてきました。しかしながら、ダンス合成のような人間中心のコンテンツ生成においては、依然として課題が残されています。既存のダンス合成手法は、合成されたコンテンツと現実世界のダンスシーンとの間に存在するギャップに苦戦しています。本論文では、現実世界のダンスシーンに焦点を当てた新しい問題設定「Referring Human Dance Generation」を定義します。この設定には、以下の3つの重要な特性があります:(i) 忠実性:合成結果は、参照画像から人間の前景と背景の外観を保持し、ターゲットポーズを正確に追従する必要がある、(ii) 汎用性:モデルは未見の人間、背景、ポーズに対して一般化できる必要がある、(iii) 構成性:異なるソースから見た/未見の被写体、背景、ポーズを組み合わせることが可能である必要がある。これらの課題に対処するため、我々は新しいアプローチ「DISCO」を提案します。DISCOは、ダンス合成の忠実性と構成性を向上させるための分離制御を備えた新しいモデルアーキテクチャと、未見の人間に対するより良い汎用性を実現するための効果的な人間属性事前学習を含んでいます。大規模な定性的および定量的な結果により、DISCOが多様な外観と柔軟な動きを備えた高品質な人間のダンス画像と動画を生成できることが実証されています。コード、デモ、動画、可視化は以下のURLで公開されています:https://disco-dance.github.io/。
English
Generative AI has made significant strides in computer vision, particularly
in image/video synthesis conditioned on text descriptions. Despite the
advancements, it remains challenging especially in the generation of
human-centric content such as dance synthesis. Existing dance synthesis methods
struggle with the gap between synthesized content and real-world dance
scenarios. In this paper, we define a new problem setting: Referring Human
Dance Generation, which focuses on real-world dance scenarios with three
important properties: (i) Faithfulness: the synthesis should retain the
appearance of both human subject foreground and background from the reference
image, and precisely follow the target pose; (ii) Generalizability: the model
should generalize to unseen human subjects, backgrounds, and poses; (iii)
Compositionality: it should allow for composition of seen/unseen subjects,
backgrounds, and poses from different sources. To address these challenges, we
introduce a novel approach, DISCO, which includes a novel model architecture
with disentangled control to improve the faithfulness and compositionality of
dance synthesis, and an effective human attribute pre-training for better
generalizability to unseen humans. Extensive qualitative and quantitative
results demonstrate that DISCO can generate high-quality human dance images and
videos with diverse appearances and flexible motions. Code, demo, video and
visualization are available at: https://disco-dance.github.io/.