DanceTogether! Генерация интерактивного видео с несколькими участниками с сохранением идентичности
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
May 23, 2025
Авторы: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI
Аннотация
Генерация управляемых видео (CVG) быстро развивается, однако современные системы сталкиваются с трудностями, когда более одного актора должны двигаться, взаимодействовать и менять позиции при наличии зашумленных управляющих сигналов. Мы устраняем этот пробел с помощью DanceTogether — первой сквозной диффузионной системы, которая преобразует одно эталонное изображение и независимые потоки масок поз в длинные фотореалистичные видео, строго сохраняя идентичность каждого участника. Новый модуль MaskPoseAdapter связывает "кто" и "как" на каждом шаге удаления шума, объединяя устойчивые маски отслеживания с семантически богатыми, но зашумленными тепловыми картами поз, устраняя проблемы смещения идентичности и "просачивания" внешнего вида, характерные для пошаговых подходов. Для масштабного обучения и оценки мы представляем: (i) PairFS-4K — 26 часов видеозаписей парного катания с более чем 7000 уникальных идентификаторов, (ii) HumanRob-300 — часовой набор данных взаимодействия человекоподобных роботов для быстрого междоменного переноса и (iii) TogetherVideoBench — трехтрековый бенчмарк, сосредоточенный на тестовом наборе DanceTogEval-100, охватывающем танцы, бокс, борьбу, йогу и фигурное катание. На TogetherVideoBench DanceTogether значительно превосходит существующие методы. Более того, мы показываем, что одночасовая дообучение позволяет создавать убедительные видео с участием людей и роботов, подчеркивая широкую обобщаемость для задач воплощенного ИИ и взаимодействия человек-робот. Многочисленные эксперименты подтверждают, что устойчивая связь идентичности и действий критически важна для достижения этих результатов. Вместе наша модель, наборы данных и бенчмарк выводят CVG из области одиночной хореографии в сферу композиционно управляемого взаимодействия нескольких акторов, открывая новые возможности для цифрового производства, симуляции и воплощенного интеллекта. Наши демонстрационные видео и код доступны по адресу https://DanceTog.github.io/.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems
falter when more than one actor must move, interact, and exchange positions
under noisy control signals. We address this gap with DanceTogether, the first
end-to-end diffusion framework that turns a single reference image plus
independent pose-mask streams into long, photorealistic videos while strictly
preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at
every denoising step by fusing robust tracking masks with semantically rich-but
noisy-pose heat-maps, eliminating the identity drift and appearance bleeding
that plague frame-wise pipelines. To train and evaluate at scale, we introduce
(i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii)
HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain
transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the
DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure
skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a
significant margin. Moreover, we show that a one-hour fine-tune yields
convincing human-robot videos, underscoring broad generalization to embodied-AI
and HRI tasks. Extensive ablations confirm that persistent identity-action
binding is critical to these gains. Together, our model, datasets, and
benchmark lift CVG from single-subject choreography to compositionally
controllable, multi-actor interaction, opening new avenues for digital
production, simulation, and embodied intelligence. Our video demos and code are
available at https://DanceTog.github.io/.Summary
AI-Generated Summary