DanceTogether! Generazione di Video Interattivi Multi-Persona con Conservazione dell'Identità
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
May 23, 2025
Autori: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI
Abstract
La generazione controllata di video (CVG) ha fatto rapidi progressi, ma gli attuali sistemi incontrano difficoltà quando più attori devono muoversi, interagire e scambiare posizioni sotto segnali di controllo rumorosi. Affrontiamo questa lacuna con DanceTogether, il primo framework end-to-end basato su diffusione che trasforma una singola immagine di riferimento più flussi indipendenti di maschere di pose in video lunghi e fotorealistici, preservando rigorosamente ogni identità. Un innovativo MaskPoseAdapter lega "chi" e "come" ad ogni passo di denoising fondendo maschere di tracciamento robuste con mappe di calore di pose semanticamente ricche ma rumorose, eliminando la deriva dell'identità e la fusione dell'aspetto che affliggono le pipeline frame-by-frame. Per addestrare e valutare su larga scala, introduciamo (i) PairFS-4K, 26 ore di filmati di pattinatori in coppia con oltre 7.000 ID distinti, (ii) HumanRob-300, un set di un'ora di interazioni tra umanoidi e robot per un rapido trasferimento cross-dominio, e (iii) TogetherVideoBench, un benchmark a tre tracce incentrato sulla suite di test DanceTogEval-100 che copre danza, boxe, wrestling, yoga e pattinaggio artistico. Su TogetherVideoBench, DanceTogether supera significativamente i precedenti approcci. Inoltre, dimostriamo che un'ora di fine-tuning produce video convincenti di interazioni uomo-robot, evidenziando un'ampia generalizzazione ai compiti di embodied-AI e HRI. Estese ablazioni confermano che il legame persistente tra identità e azione è cruciale per questi miglioramenti. Insieme, il nostro modello, i dataset e il benchmark elevano la CVG dalla coreografia a soggetto singolo a interazioni multi-attore controllabili in modo composizionale, aprendo nuove strade per la produzione digitale, la simulazione e l'intelligenza incarnata. Le nostre demo video e il codice sono disponibili su https://DanceTog.github.io/.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems
falter when more than one actor must move, interact, and exchange positions
under noisy control signals. We address this gap with DanceTogether, the first
end-to-end diffusion framework that turns a single reference image plus
independent pose-mask streams into long, photorealistic videos while strictly
preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at
every denoising step by fusing robust tracking masks with semantically rich-but
noisy-pose heat-maps, eliminating the identity drift and appearance bleeding
that plague frame-wise pipelines. To train and evaluate at scale, we introduce
(i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii)
HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain
transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the
DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure
skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a
significant margin. Moreover, we show that a one-hour fine-tune yields
convincing human-robot videos, underscoring broad generalization to embodied-AI
and HRI tasks. Extensive ablations confirm that persistent identity-action
binding is critical to these gains. Together, our model, datasets, and
benchmark lift CVG from single-subject choreography to compositionally
controllable, multi-actor interaction, opening new avenues for digital
production, simulation, and embodied intelligence. Our video demos and code are
available at https://DanceTog.github.io/.