SyncMV4D: 外観と動作の同期化マルチビュー拡散による手-物体インタラクション合成
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
November 24, 2025
著者: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI
要旨
手-物体インタラクション(HOI)生成は、アニメーションやロボティクスにおける応用を推進する上で重要な役割を果たす。現在のビデオベースの手法は主に単一視点であり、これが3Dジオメトリの包括的な知覚を妨げ、しばしば幾何学的歪みや非現実的な動作パターンを引き起こす。一方、3D HOI手法は動的に妥当な動作を生成できるが、制御された実験環境で収集された高品質3Dデータへの依存性が、実世界シナリオへの一般化を大きく制限している。これらの課題を克服するため、我々は視覚的プリオール、動作力学、多視点幾何学を統一することで、同期したマルチビューHOIビデオと4D動作を共同生成する初のモデルであるSyncMV4Dを提案する。本フレームワークは二つの核心的革新を特徴とする:(1)HOIビデオと中間動作を共同生成するマルチビュー共同拡散(MJD)モデル、(2)粗い中間動作を大域的に位置合わせされた4Dメトリックポイントトラックに精緻化する拡散ポイント位置合わせ器(DPA)。2D外観と4Dダイナミクスを密結合させるため、閉ループ型の相互強化サイクルを確立する。拡散ノイズ除去プロセスにおいて、生成されたビデオが4D動作の精緻化を条件付けし、位置合わせされた4Dポイントトラックは再投影されて次ステップの共同生成を導く。実験では、本手法が視覚的リアリズム、動作の妥当性、マルチビュー一貫性において、既存の最先端手法を凌駕する性能を示す。
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.