DanceTogether! Identiteit-behoudende Multi-Persoon Interactieve Videogeneratie
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
May 23, 2025
Auteurs: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI
Samenvatting
Beheersbare videogeneratie (CVG) heeft een snelle vooruitgang geboekt, maar huidige systemen falen wanneer meer dan één acteur moet bewegen, interacteren en van positie wisselen onder ruisachtige controlesignalen. Wij pakken deze kloof aan met DanceTogether, het eerste end-to-end diffusieframework dat een enkele referentieafbeelding plus onafhankelijke pose-maskerstromen omzet in lange, fotorealistische video's, terwijl strikt elke identiteit behouden blijft. Een nieuwe MaskPoseAdapter verbindt "wie" en "hoe" bij elke denoisestap door robuuste trackingmaskers te fuseren met semantisch rijke maar ruisachtige pose-warmtekaarten, waardoor identiteitsdrift en uiterlijkvervaging die framegewijze pijplijnen teisteren, worden geëlimineerd. Om op grote schaal te trainen en te evalueren, introduceren we (i) PairFS-4K, 26 uur aan beelden van dubbele schaatsers met meer dan 7.000 verschillende ID's, (ii) HumanRob-300, een een uur durende set van humanoïde-robotinteracties voor snelle cross-domeinoverdracht, en (iii) TogetherVideoBench, een benchmark met drie sporen, gericht op de DanceTogEval-100 testset die dansen, boksen, worstelen, yoga en kunstschaatsen omvat. Op TogetherVideoBench presteert DanceTogether aanzienlijk beter dan de voorgaande technieken. Bovendien tonen we aan dat een een uur durende fine-tuning overtuigende mens-robotvideo's oplevert, wat de brede generalisatie naar embodied-AI en HRI-taken onderstreept. Uitgebreide ablatie-experimenten bevestigen dat persistente identiteits-actiebinding cruciaal is voor deze verbeteringen. Samen tillen ons model, datasets en benchmark CVG van enkelvoudige choreografie naar compositioneel beheersbare, multi-actorinteractie, wat nieuwe mogelijkheden opent voor digitale productie, simulatie en embodied intelligence. Onze videodemo's en code zijn beschikbaar op https://DanceTog.github.io/.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems
falter when more than one actor must move, interact, and exchange positions
under noisy control signals. We address this gap with DanceTogether, the first
end-to-end diffusion framework that turns a single reference image plus
independent pose-mask streams into long, photorealistic videos while strictly
preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at
every denoising step by fusing robust tracking masks with semantically rich-but
noisy-pose heat-maps, eliminating the identity drift and appearance bleeding
that plague frame-wise pipelines. To train and evaluate at scale, we introduce
(i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii)
HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain
transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the
DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure
skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a
significant margin. Moreover, we show that a one-hour fine-tune yields
convincing human-robot videos, underscoring broad generalization to embodied-AI
and HRI tasks. Extensive ablations confirm that persistent identity-action
binding is critical to these gains. Together, our model, datasets, and
benchmark lift CVG from single-subject choreography to compositionally
controllable, multi-actor interaction, opening new avenues for digital
production, simulation, and embodied intelligence. Our video demos and code are
available at https://DanceTog.github.io/.