ChatPaper.aiChatPaper

¡BailamosJuntos! Generación de Video Interactivo Multipersona con Preservación de Identidad

DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation

May 23, 2025
Autores: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI

Resumen

La generación de video controlable (CVG, por sus siglas en inglés) ha avanzado rápidamente, aunque los sistemas actuales fallan cuando más de un actor debe moverse, interactuar y cambiar de posición bajo señales de control ruidosas. Abordamos esta brecha con DanceTogether, el primer marco de difusión de extremo a extremo que convierte una sola imagen de referencia más flujos independientes de máscaras de poses en videos largos y fotorrealistas, preservando estrictamente cada identidad. Un novedoso MaskPoseAdapter vincula "quién" y "cómo" en cada paso de eliminación de ruido al fusionar máscaras de seguimiento robustas con mapas de calor de poses semánticamente ricos pero ruidosos, eliminando la deriva de identidad y la mezcla de apariencias que afectan a las canalizaciones basadas en fotogramas. Para entrenar y evaluar a escala, presentamos (i) PairFS-4K, 26 horas de metraje de patinadores duales con más de 7,000 identificaciones distintas, (ii) HumanRob-300, un conjunto de interacción humanoide-robot de una hora para transferencia rápida entre dominios, y (iii) TogetherVideoBench, un punto de referencia de tres pistas centrado en el conjunto de pruebas DanceTogEval-100 que cubre danza, boxeo, lucha libre, yoga y patinaje artístico. En TogetherVideoBench, DanceTogether supera a los métodos anteriores por un margen significativo. Además, demostramos que un ajuste fino de una hora produce videos convincentes de humano-robot, destacando una generalización amplia para tareas de IA encarnada e interacción humano-robot (HRI). Ablaciones extensas confirman que la vinculación persistente entre identidad y acción es crucial para estos avances. En conjunto, nuestro modelo, conjuntos de datos y punto de referencia elevan la CVG desde la coreografía de un solo sujeto hasta la interacción multi-actor controlable composicionalmente, abriendo nuevas vías para la producción digital, simulación e inteligencia encarnada. Nuestras demostraciones en video y código están disponibles en https://DanceTog.github.io/.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems falter when more than one actor must move, interact, and exchange positions under noisy control signals. We address this gap with DanceTogether, the first end-to-end diffusion framework that turns a single reference image plus independent pose-mask streams into long, photorealistic videos while strictly preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at every denoising step by fusing robust tracking masks with semantically rich-but noisy-pose heat-maps, eliminating the identity drift and appearance bleeding that plague frame-wise pipelines. To train and evaluate at scale, we introduce (i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii) HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a significant margin. Moreover, we show that a one-hour fine-tune yields convincing human-robot videos, underscoring broad generalization to embodied-AI and HRI tasks. Extensive ablations confirm that persistent identity-action binding is critical to these gains. Together, our model, datasets, and benchmark lift CVG from single-subject choreography to compositionally controllable, multi-actor interaction, opening new avenues for digital production, simulation, and embodied intelligence. Our video demos and code are available at https://DanceTog.github.io/.

Summary

AI-Generated Summary

PDF62May 26, 2025