DanceTogether! Génération interactive de vidéos multipersonnes préservant l'identité
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
May 23, 2025
Auteurs: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI
Résumé
La génération de vidéos contrôlable (CVG) a progressé rapidement, mais les systèmes actuels échouent lorsque plusieurs acteurs doivent se déplacer, interagir et échanger leurs positions sous des signaux de contrôle bruités. Nous comblons cette lacune avec DanceTogether, le premier cadre de diffusion end-to-end qui transforme une seule image de référence ainsi que des flux indépendants de masques de pose en des vidéos longues et photoréalistes, tout en préservant strictement chaque identité. Un nouvel adaptateur, le MaskPoseAdapter, lie "qui" et "comment" à chaque étape de débrui-tage en fusionnant des masques de suivi robustes avec des cartes de chaleur de pose sémantiquement riches mais bruitées, éliminant ainsi la dérive d'identité et le saignement d'apparence qui affectent les pipelines basés sur des images individuelles. Pour l'entraînement et l'évaluation à grande échelle, nous introduisons (i) PairFS-4K, 26 heures de séquences de patinage en duo avec plus de 7 000 identités distinctes, (ii) HumanRob-300, un ensemble d'une heure d'interaction humanoïde-robot pour un transfert rapide entre domaines, et (iii) TogetherVideoBench, un benchmark à trois volets centré sur la suite de tests DanceTogEval-100 couvrant la danse, la boxe, la lutte, le yoga et le patinage artistique. Sur TogetherVideoBench, DanceTogether surpasse les méthodes précédentes de manière significative. De plus, nous montrons qu'un réglage fin d'une heure produit des vidéos humain-robot convaincantes, soulignant une généralisation large aux tâches d'intelligence artificielle incarnée et d'interaction humain-robot (HRI). Des ablations approfondies confirment que la liaison persistante entre identité et action est cruciale pour ces gains. Ensemble, notre modèle, jeux de données et benchmark élèvent la CVG d'une chorégraphie à sujet unique à une interaction multi-acteurs contrôlable de manière compositionnelle, ouvrant de nouvelles voies pour la production numérique, la simulation et l'intelligence incarnée. Nos démonstrations vidéo et code sont disponibles à l'adresse https://DanceTog.github.io/.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems
falter when more than one actor must move, interact, and exchange positions
under noisy control signals. We address this gap with DanceTogether, the first
end-to-end diffusion framework that turns a single reference image plus
independent pose-mask streams into long, photorealistic videos while strictly
preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at
every denoising step by fusing robust tracking masks with semantically rich-but
noisy-pose heat-maps, eliminating the identity drift and appearance bleeding
that plague frame-wise pipelines. To train and evaluate at scale, we introduce
(i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii)
HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain
transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the
DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure
skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a
significant margin. Moreover, we show that a one-hour fine-tune yields
convincing human-robot videos, underscoring broad generalization to embodied-AI
and HRI tasks. Extensive ablations confirm that persistent identity-action
binding is critical to these gains. Together, our model, datasets, and
benchmark lift CVG from single-subject choreography to compositionally
controllable, multi-actor interaction, opening new avenues for digital
production, simulation, and embodied intelligence. Our video demos and code are
available at https://DanceTog.github.io/.Summary
AI-Generated Summary