X-Dancer: 人間のダンスビデオ生成における表現豊かな音楽
X-Dancer: Expressive Music to Human Dance Video Generation
February 24, 2025
著者: Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
cs.AI
要旨
私たちは、X-Dancerを提案します。これは、単一の静止画像から多様で長距離にわたるリアルな人間のダンスビデオを生成する、新しいゼロショットの音楽駆動型画像アニメーションパイプラインです。その中核として、我々は、自己回帰型トランスフォーマーモデルを特徴とする統合されたトランスフォーマーディフュージョンフレームワークを導入し、2Dのボディ、頭部、手のポーズのために拡張された音楽同期トークンシーケンスを合成し、それらが拡散モデルを導き、一貫性のあるリアルなダンスビデオフレームを生成します。X-Dancerは、主に3Dで人間の動きを生成する従来の方法とは異なり、2Dのダンスモーションの幅広いスペクトルをモデリングし、データの制限に対処し、スケーラビリティを向上させます。これにより、音楽ビートと微妙な整合性を容易に利用可能な単眼ビデオを介して捉えます。これを実現するために、まず、キーポイントの確信度に関連付けられた2D人間のポーズラベルから空間的に構成されたトークン表現を構築し、大規模な関節体の動き(例:上半身と下半身)と細かい動き(例:頭部と手)の両方をエンコードします。次に、音楽と動きのトランスフォーマーモデルを設計し、音楽に合わせたダンスポーズトークンシーケンスを自己回帰的に生成し、音楽スタイルと前の動きコンテキストの両方にグローバルアテンションを組み込みます。最後に、合成されたポーズトークンをAdaINを介して参照画像でアニメーション化するために拡散バックボーンを活用し、完全に微分可能なエンドツーエンドのフレームワークを形成します。実験結果は、X-Dancerが多様で特徴的なダンスビデオを生成し、多様性、表現力、リアリズムの点で最先端の手法を大幅に上回ることを示しています。コードとモデルは研究目的で利用可能になります。
English
We present X-Dancer, a novel zero-shot music-driven image animation pipeline
that creates diverse and long-range lifelike human dance videos from a single
static image. As its core, we introduce a unified transformer-diffusion
framework, featuring an autoregressive transformer model that synthesize
extended and music-synchronized token sequences for 2D body, head and hands
poses, which then guide a diffusion model to produce coherent and realistic
dance video frames. Unlike traditional methods that primarily generate human
motion in 3D, X-Dancer addresses data limitations and enhances scalability by
modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment
with musical beats through readily available monocular videos. To achieve this,
we first build a spatially compositional token representation from 2D human
pose labels associated with keypoint confidences, encoding both large
articulated body movements (e.g., upper and lower body) and fine-grained
motions (e.g., head and hands). We then design a music-to-motion transformer
model that autoregressively generates music-aligned dance pose token sequences,
incorporating global attention to both musical style and prior motion context.
Finally we leverage a diffusion backbone to animate the reference image with
these synthesized pose tokens through AdaIN, forming a fully differentiable
end-to-end framework. Experimental results demonstrate that X-Dancer is able to
produce both diverse and characterized dance videos, substantially
outperforming state-of-the-art methods in term of diversity, expressiveness and
realism. Code and model will be available for research purposes.Summary
AI-Generated Summary