DanceTogether! Identitätserhaltende interaktive Videoerzeugung mit mehreren Personen
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
May 23, 2025
Autoren: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI
Zusammenfassung
Die kontrollierbare Videogenerierung (CVG) hat sich rasant weiterentwickelt, doch aktuelle Systeme scheitern, wenn mehr als ein Akteur sich bewegen, interagieren und Positionen unter verrauschten Steuersignalen tauschen muss. Wir schließen diese Lücke mit DanceTogether, dem ersten end-to-end Diffusionsframework, das ein einzelnes Referenzbild plus unabhängige Posemasken-Streams in lange, fotorealistische Videos umwandelt, während jede Identität strikt bewahrt wird. Ein neuartiger MaskPoseAdapter verbindet „wer“ und „wie“ in jedem Denoising-Schritt, indem robuste Tracking-Masken mit semantisch reichen, aber verrauschten Pose-Heatmaps fusioniert werden, wodurch Identitätsdrift und Erscheinungsbildverfälschungen, die frame-basierte Pipelines plagen, eliminiert werden. Um das Training und die Evaluierung in großem Maßstab zu ermöglichen, führen wir (i) PairFS-4K ein, 26 Stunden Aufnahmen von Eisläuferpaaren mit über 7.000 verschiedenen IDs, (ii) HumanRob-300, ein einstündiges Interaktionsset zwischen Humanoiden und Robotern für schnellen domänenübergreifenden Transfer, und (iii) TogetherVideoBench, einen dreispurigen Benchmark, der sich auf den DanceTogEval-100-Testsatz konzentriert und Tanz, Boxen, Wrestling, Yoga und Eiskunstlauf abdeckt. Auf TogetherVideoBench übertrifft DanceTogether die bisherigen Ansätze deutlich. Darüber hinaus zeigen wir, dass eine einstündige Feinabstimmung überzeugende Mensch-Roboter-Videos liefert, was die breite Generalisierbarkeit für embodied-AI- und HRI-Aufgaben unterstreicht. Umfangreiche Ablationen bestätigen, dass die persistente Bindung von Identität und Handlung entscheidend für diese Fortschritte ist. Zusammen heben unser Modell, die Datensätze und der Benchmark die CVG von der Einzelsubjekt-Choreografie auf kompositionell kontrollierbare, multi-aktorielle Interaktionen, wodurch neue Wege für digitale Produktion, Simulation und embodied Intelligence eröffnet werden. Unsere Videodemos und der Code sind unter https://DanceTog.github.io/ verfügbar.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems
falter when more than one actor must move, interact, and exchange positions
under noisy control signals. We address this gap with DanceTogether, the first
end-to-end diffusion framework that turns a single reference image plus
independent pose-mask streams into long, photorealistic videos while strictly
preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at
every denoising step by fusing robust tracking masks with semantically rich-but
noisy-pose heat-maps, eliminating the identity drift and appearance bleeding
that plague frame-wise pipelines. To train and evaluate at scale, we introduce
(i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii)
HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain
transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the
DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure
skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a
significant margin. Moreover, we show that a one-hour fine-tune yields
convincing human-robot videos, underscoring broad generalization to embodied-AI
and HRI tasks. Extensive ablations confirm that persistent identity-action
binding is critical to these gains. Together, our model, datasets, and
benchmark lift CVG from single-subject choreography to compositionally
controllable, multi-actor interaction, opening new avenues for digital
production, simulation, and embodied intelligence. Our video demos and code are
available at https://DanceTog.github.io/.Summary
AI-Generated Summary