SyncMV4D: 외관과 동작의 동기화된 다중 뷰 공동 확산 기반 손-객체 상호작용 합성
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
November 24, 2025
저자: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI
초록
손-물체 상호작용(HOI) 생성은 애니메이션과 로봇공학 분야의 응용 발전에 중요한 역할을 합니다. 현재 비디오 기반 방법론은 주로 단일 뷰에 의존하여 포괄적인 3D 기하학적 인식을 방해하고 기하학적 왜곡이나 비현실적인 운동 패턴을 초래하는 경우가 많습니다. 3D HOI 접근법은 동적으로 그럴듯한 운동을 생성할 수 있지만, 통제된 실험실 환경에서 획득한 고품질 3D 데이터에 대한 의존성으로 인해 실제 환경으로의 일반화가 심각하게 제한됩니다. 이러한 한계를 극복하기 위해 우리는 시각적 사전 지식, 운동 역학, 다중 뷰 기하학을 통합하여 동기화된 다중 뷰 HOI 비디오와 4D 운동을 공동 생성하는 최초의 모델인 SyncMV4D를 소개합니다. 우리의 프레임워크는 두 가지 핵심 혁신을 특징으로 합니다: (1) HOI 비디오와 중간 운동을 공동 생성하는 다중 뷰 공동 디퓨전(MJD) 모델, (2) 거친 중간 운동을 전역적으로 정렬된 4D 계량 점 궤적으로 정제하는 디퓨전 점 정렬기(DPA). 2D 외관과 4D 역학을 긴밀하게 결합하기 위해 폐쇄형 상호 강화 순환 구조를 구축했습니다. 디퓨전 노이즈 제거 과정에서 생성된 비디오는 4D 운동 정제를 조건화하고, 정렬된 4D 점 궤역은 재투영되어 다음 단계의 공동 생성을 안내합니다. 실험적으로 우리의 방법은 시각적 현실감, 운동 타당성, 다중 뷰 일관성 측면에서 최첨단 대안들보다 우수한 성능을 입증했습니다.
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.