DanceTogether! 同一性保持型多人数インタラクティブビデオ生成
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
May 23, 2025
著者: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI
要旨
制御可能なビデオ生成(CVG)は急速に進歩しているが、現在のシステムは、複数のアクターが移動し、相互作用し、位置を交換する必要がある場合や、ノイズの多い制御信号下ではうまく機能しない。このギャップを埋めるために、我々はDanceTogetherを提案する。これは、単一の参照画像と独立したポーズマスクストリームから、長くてフォトリアルなビデオを生成しつつ、各アイデンティティを厳密に保持する初のエンドツーエンドの拡散フレームワークである。新たに開発されたMaskPoseAdapterは、堅牢なトラッキングマスクと意味的に豊かだがノイズの多いポーズヒートマップを融合することで、各ノイズ除去ステップで「誰が」と「どのように」を結びつけ、フレームごとのパイプラインで発生するアイデンティティのドリフトや外観のブリードを排除する。大規模なトレーニングと評価のために、(i) 26時間のデュアルスケーター映像と7,000以上の異なるIDを含むPairFS-4K、(ii) 迅速なクロスドメイン転送のための1時間のヒューマノイドロボット相互作用セットであるHumanRob-300、(iii) ダンス、ボクシング、レスリング、ヨガ、フィギュアスケートをカバーするDanceTogEval-100テストスイートを中心とした3トラックのベンチマークであるTogetherVideoBenchを導入した。TogetherVideoBenchにおいて、DanceTogetherは従来の技術を大幅に上回る性能を示した。さらに、1時間のファインチューニングで説得力のあるヒューマンロボットビデオを生成できることを示し、エンボディドAIやHRIタスクへの広範な一般化を強調した。広範なアブレーション実験により、持続的なアイデンティティとアクションの結合がこれらの成果に不可欠であることが確認された。我々のモデル、データセット、ベンチマークは、CVGを単一主体の振り付けから構成可能で多アクターの相互作用へと引き上げ、デジタル制作、シミュレーション、エンボディドインテリジェンスの新たな道を開く。ビデオデモとコードはhttps://DanceTog.github.io/で公開されている。
English
Controllable video generation (CVG) has advanced rapidly, yet current systems
falter when more than one actor must move, interact, and exchange positions
under noisy control signals. We address this gap with DanceTogether, the first
end-to-end diffusion framework that turns a single reference image plus
independent pose-mask streams into long, photorealistic videos while strictly
preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at
every denoising step by fusing robust tracking masks with semantically rich-but
noisy-pose heat-maps, eliminating the identity drift and appearance bleeding
that plague frame-wise pipelines. To train and evaluate at scale, we introduce
(i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii)
HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain
transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the
DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure
skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a
significant margin. Moreover, we show that a one-hour fine-tune yields
convincing human-robot videos, underscoring broad generalization to embodied-AI
and HRI tasks. Extensive ablations confirm that persistent identity-action
binding is critical to these gains. Together, our model, datasets, and
benchmark lift CVG from single-subject choreography to compositionally
controllable, multi-actor interaction, opening new avenues for digital
production, simulation, and embodied intelligence. Our video demos and code are
available at https://DanceTog.github.io/.Summary
AI-Generated Summary