DeVI: 합성 비디오 모방을 통한 물리 기반 손재주 있는 인간-객체 상호작용
DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation
April 22, 2026
저자: Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, Hanbyul Joo
cs.AI
초록
최근 비디오 생성 모델의 발전으로 다양한 시나리오와 객체 범주에서 현실적인 인간-객체 상호작용 비디오 합성이 가능해졌으며, 이는 모션 캡처 시스템으로 포착하기 어려운 복잡한 정교한 조작까지 포함합니다. 이러한 합성 비디오에 내재된 풍부한 상호작용 지식은 정교한 로봇 조작의 모션 계획에 강력한 잠재력을 지니지만, 제한된 물리적 정확도와 순수 2D 특성으로 인해 물리 기반 캐릭터 제어에서 모방 목표로 직접 사용하기는 어렵습니다. 본 논문에서는 텍스트 조건화 합성 비디오를 활용하여 보이지 않는 대상 객체와 상호작용하는 물리적으로 타당한 정교한 에이전트 제어를 가능하게 하는 새로운 프레임워크인 DeVI(Dexterous Video Imitation)를 제시합니다. 생성적 2D 신호의 부정확성을 극복하기 위해 3D 인간 추적과 강력한 2D 객체 추적을 통합한 하이브리드 추적 보상을 도입합니다. 고품질 3D 운동학적 데모에 의존하는 방법과 달리, DeVI는 생성된 비디오만을 필요로 하여 다양한 객체와 상호작용 유형에 대해 제로샷 일반화를 가능하게 합니다. 대규모 실험을 통해 DeVI가 3D 인간-객체 상호작용 데모를 모방하는 기존 접근법, 특히 정교한 손-객체 상호작용 모델링에서 우수한 성능을 보임을 입증합니다. 또한 다중 객체 장면과 텍스트 기반 행동 다양성에서 DeVI의 효과성을 추가로 검증하여, 비디오를 HOI 인식 모션 플래너로 활용할 때의 장점을 부각합니다.
English
Recent advances in video generative models enable the synthesis of realistic human-object interaction videos across a wide range of scenarios and object categories, including complex dexterous manipulations that are difficult to capture with motion capture systems. While the rich interaction knowledge embedded in these synthetic videos holds strong potential for motion planning in dexterous robotic manipulation, their limited physical fidelity and purely 2D nature make them difficult to use directly as imitation targets in physics-based character control. We present DeVI (Dexterous Video Imitation), a novel framework that leverages text-conditioned synthetic videos to enable physically plausible dexterous agent control for interacting with unseen target objects. To overcome the imprecision of generative 2D cues, we introduce a hybrid tracking reward that integrates 3D human tracking with robust 2D object tracking. Unlike methods relying on high-quality 3D kinematic demonstrations, DeVI requires only the generated video, enabling zero-shot generalization across diverse objects and interaction types. Extensive experiments demonstrate that DeVI outperforms existing approaches that imitate 3D human-object interaction demonstrations, particularly in modeling dexterous hand-object interactions. We further validate the effectiveness of DeVI in multi-object scenes and text-driven action diversity, showcasing the advantage of using video as an HOI-aware motion planner.