SViMo: 손-물체 상호작용 시나리오에서 비디오 및 동작 생성을 위한 동기화된 확산 기법
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
저자: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
초록
손-물체 상호작용(Hand-Object Interaction, HOI) 생성은 상당한 응용 잠재력을 가지고 있습니다. 그러나 현재의 3D HOI 모션 생성 접근법은 사전 정의된 3D 물체 모델과 실험실에서 캡처된 모션 데이터에 크게 의존하여 일반화 능력이 제한됩니다. 한편, HOI 비디오 생성 방법은 픽셀 수준의 시각적 충실도를 우선시하며, 종종 물리적 타당성을 희생합니다. 시각적 외관과 모션 패턴이 현실 세계에서 동일한 기본 물리 법칙을 공유한다는 점을 인식하여, 우리는 HOI 비디오와 모션을 동시에 생성하기 위해 시각적 사전 지식과 동적 제약을 동기화된 확산 과정 내에서 결합하는 새로운 프레임워크를 제안합니다. 이질적인 의미론, 외관, 그리고 모션 특징을 통합하기 위해, 우리의 방법은 특징 정렬을 위한 삼중 모드 적응 변조를 구현하고, 모드 간 및 모드 내 의존성을 모델링하기 위해 3D 전체 주의 메커니즘을 결합합니다. 더 나아가, 우리는 동기화된 확산 출력에서 직접 명시적인 3D 상호작용 시퀀스를 생성한 후 이를 피드백하여 폐루프 피드백 사이클을 구축하는 시각 인식 3D 상호작용 확산 모델을 도입합니다. 이 아키텍처는 사전 정의된 물체 모델이나 명시적인 포즈 안내에 대한 의존성을 제거하면서도 비디오-모션 일관성을 크게 향상시킵니다. 실험 결과는 우리의 방법이 고충실도이고 동적으로 타당한 HOI 시퀀스를 생성하는 데 있어 최신 접근법을 능가하며, 보이지 않는 실제 시나리오에서도 뛰어난 일반화 능력을 보여줍니다. 프로젝트 페이지는 https://github.com/Droliven/SViMo\_project에서 확인할 수 있습니다.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.