ChatPaper.aiChatPaper

DanceTogether! 다중 사용자 상호작용 비디오 생성에서의 정체성 보존

DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation

May 23, 2025
저자: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang
cs.AI

초록

제어 가능한 비디오 생성(CVG) 기술은 빠르게 발전해 왔지만, 현재의 시스템들은 두 명 이상의 행위자가 움직이고 상호작용하며 위치를 교환해야 하는 상황에서 노이즈가 있는 제어 신호 하에서 제대로 작동하지 못합니다. 우리는 이러한 격차를 해결하기 위해 DanceTogether를 제안합니다. 이는 단일 참조 이미지와 독립적인 포즈-마스크 스트림을 통해 길고 사실적인 비디오를 생성하면서도 모든 정체성을 엄격하게 보존하는 최초의 종단 간(end-to-end) 디퓨전 프레임워크입니다. 새로운 MaskPoseAdapter는 강력한 추적 마스크와 의미적으로 풍부하지만 노이즈가 있는 포즈 히트맵을 융합하여 "누가"와 "어떻게"를 모든 디노이징 단계에서 결합함으로써, 프레임 단위 파이프라인에서 발생하는 정체성 드리프트와 외관 유출 문제를 제거합니다. 대규모로 학습하고 평가하기 위해, 우리는 (i) 26시간 분량의 듀얼 스케이터 영상과 7,000개 이상의 고유 ID를 포함한 PairFS-4K, (ii) 신속한 크로스 도메인 전이를 위한 1시간 분량의 휴머노이드 로봇 상호작용 데이터셋인 HumanRob-300, 그리고 (iii) 댄스, 복싱, 레슬링, 요가, 피겨 스케이팅을 포함한 DanceTogEval-100 테스트 슈트를 중심으로 한 세 가지 트랙의 TogetherVideoBench 벤치마크를 소개합니다. TogetherVideoBench에서 DanceTogether는 기존 기술들을 상당한 차이로 능가했습니다. 또한, 1시간의 미세 조정만으로도 설득력 있는 인간-로봇 비디오를 생성할 수 있음을 보여주며, 이는 구현된 AI와 HRI(Human-Robot Interaction) 작업에 대한 광범위한 일반화를 강조합니다. 광범위한 어블레이션 실험은 지속적인 정체성-행동 결합이 이러한 성과에 중요함을 확인합니다. 우리의 모델, 데이터셋, 벤치마크는 CVG를 단일 주체의 안무에서 구성적으로 제어 가능한 다중 행위자 상호작용으로 끌어올려 디지털 제작, 시뮬레이션, 구현된 지능을 위한 새로운 길을 열었습니다. 우리의 비디오 데모와 코드는 https://DanceTog.github.io/에서 확인할 수 있습니다.
English
Controllable video generation (CVG) has advanced rapidly, yet current systems falter when more than one actor must move, interact, and exchange positions under noisy control signals. We address this gap with DanceTogether, the first end-to-end diffusion framework that turns a single reference image plus independent pose-mask streams into long, photorealistic videos while strictly preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at every denoising step by fusing robust tracking masks with semantically rich-but noisy-pose heat-maps, eliminating the identity drift and appearance bleeding that plague frame-wise pipelines. To train and evaluate at scale, we introduce (i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii) HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a significant margin. Moreover, we show that a one-hour fine-tune yields convincing human-robot videos, underscoring broad generalization to embodied-AI and HRI tasks. Extensive ablations confirm that persistent identity-action binding is critical to these gains. Together, our model, datasets, and benchmark lift CVG from single-subject choreography to compositionally controllable, multi-actor interaction, opening new avenues for digital production, simulation, and embodied intelligence. Our video demos and code are available at https://DanceTog.github.io/.

Summary

AI-Generated Summary

PDF62May 26, 2025