DeVI: 物理ベースの合成映像模倣による器用な人間-物体相互作用
DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation
April 22, 2026
著者: Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, Hanbyul Joo
cs.AI
要旨
近年のビデオ生成モデルの進歩により、多様なシナリオや物体カテゴリーにわたる現実的な人物-物体相互作用ビデオの合成が可能となった。これには、モーションキャプチャシステムで捉えることが困難な複雑な巧緻操作も含まれる。こうした合成ビデオに埋め込まれた豊富な相互作用知識は、巧緻なロボット操作におけるモーションプランニングに強い可能性を秘めているが、物理的な忠実度の限界や純粋な2D性質のため、物理ベースのキャラクター制御における模倣対象として直接使用するのは困難である。本研究では、テキスト条件付き合成ビデオを活用し、未見の標的物体との相互作用における物理的に妥当な巧緻エージェント制御を実現する新しいフレームワークDeVI(Dexterous Video Imitation)を提案する。生成的2D手がかりの不正確さを克服するため、3D人物追跡とロバストな2D物体追跡を統合したハイブリッド追跡報酬を導入する。高品質な3Dキネマティックデモンストレーションに依存する手法とは異なり、DeVIは生成されたビデオのみを必要とし、多様な物体や相互作用タイプへのゼロショット一般化を可能にする。大規模な実験により、DeVIが3D人物-物体相互作用デモンストレーションを模倣する既存アプローチを凌駕し、特に巧緻な手-物体相互作用のモデリングにおいて優れていることを実証する。さらに、多物体シーンやテキスト駆動の動作多様性におけるDeVIの有効性を検証し、ビデオをHOI認識型モーションプランナーとして活用する利点を明らかにする。
English
Recent advances in video generative models enable the synthesis of realistic human-object interaction videos across a wide range of scenarios and object categories, including complex dexterous manipulations that are difficult to capture with motion capture systems. While the rich interaction knowledge embedded in these synthetic videos holds strong potential for motion planning in dexterous robotic manipulation, their limited physical fidelity and purely 2D nature make them difficult to use directly as imitation targets in physics-based character control. We present DeVI (Dexterous Video Imitation), a novel framework that leverages text-conditioned synthetic videos to enable physically plausible dexterous agent control for interacting with unseen target objects. To overcome the imprecision of generative 2D cues, we introduce a hybrid tracking reward that integrates 3D human tracking with robust 2D object tracking. Unlike methods relying on high-quality 3D kinematic demonstrations, DeVI requires only the generated video, enabling zero-shot generalization across diverse objects and interaction types. Extensive experiments demonstrate that DeVI outperforms existing approaches that imitate 3D human-object interaction demonstrations, particularly in modeling dexterous hand-object interactions. We further validate the effectiveness of DeVI in multi-object scenes and text-driven action diversity, showcasing the advantage of using video as an HOI-aware motion planner.