DanceTogether! Geração de Vídeo Interativo Multi-Pessoa com Preservação de Identidade
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
May 23, 2025
Autores: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI
Resumo
A geração de vídeo controlável (CVG) avançou rapidamente, mas os sistemas atuais falham quando mais de um ator precisa se mover, interagir e trocar de posições sob sinais de controle ruidosos. Abordamos essa lacuna com o DanceTogether, o primeiro framework de difusão end-to-end que transforma uma única imagem de referência mais fluxos independentes de máscaras de pose em vídeos longos e foto-realistas, preservando estritamente cada identidade. Um novo MaskPoseAdapter vincula "quem" e "como" em cada etapa de remoção de ruído, fundindo máscaras de rastreamento robustas com mapas de calor de pose semanticamente ricos, porém ruidosos, eliminando o desvio de identidade e a mistura de aparência que afetam pipelines baseados em quadros. Para treinar e avaliar em escala, introduzimos (i) PairFS-4K, 26 horas de filmagem de duplas de patinadores com mais de 7.000 IDs distintos, (ii) HumanRob-300, um conjunto de uma hora de interação humanoide-robô para transferência rápida entre domínios, e (iii) TogetherVideoBench, um benchmark de três trilhas centrado no conjunto de testes DanceTogEval-100, cobrindo dança, boxe, luta livre, ioga e patinação artística. No TogetherVideoBench, o DanceTogether supera os métodos anteriores por uma margem significativa. Além disso, mostramos que um ajuste fino de uma hora produz vídeos convincentes de humano-robô, destacando uma ampla generalização para tarefas de IA incorporada e interação humano-robô (HRI). Ablações extensas confirmam que a vinculação persistente entre identidade e ação é crucial para esses ganhos. Juntos, nosso modelo, conjuntos de dados e benchmark elevam a CVG da coreografia de um único sujeito para interações multi-ator controláveis de forma composicional, abrindo novas possibilidades para produção digital, simulação e inteligência incorporada. Nossos vídeos de demonstração e código estão disponíveis em https://DanceTog.github.io/.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems
falter when more than one actor must move, interact, and exchange positions
under noisy control signals. We address this gap with DanceTogether, the first
end-to-end diffusion framework that turns a single reference image plus
independent pose-mask streams into long, photorealistic videos while strictly
preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at
every denoising step by fusing robust tracking masks with semantically rich-but
noisy-pose heat-maps, eliminating the identity drift and appearance bleeding
that plague frame-wise pipelines. To train and evaluate at scale, we introduce
(i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii)
HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain
transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the
DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure
skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a
significant margin. Moreover, we show that a one-hour fine-tune yields
convincing human-robot videos, underscoring broad generalization to embodied-AI
and HRI tasks. Extensive ablations confirm that persistent identity-action
binding is critical to these gains. Together, our model, datasets, and
benchmark lift CVG from single-subject choreography to compositionally
controllable, multi-actor interaction, opening new avenues for digital
production, simulation, and embodied intelligence. Our video demos and code are
available at https://DanceTog.github.io/.