SyncMV4D : Diffusion synchronisée multi-vues des articulations pour l'apparence et le mouvement dans la synthèse d'interactions main-objet
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
November 24, 2025
papers.authors: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI
papers.abstract
La génération d'interactions main-objet (HOI) joue un rôle essentiel dans le développement d'applications en animation et robotique. Les méthodes actuelles basées sur la vidéo sont majoritairement monoscopiques, ce qui entrave une perception géométrique 3D complète et génère souvent des distorsions géométriques ou des schémas de mouvement peu réalistes. Bien que les approches HOI 3D puissent produire des mouvements dynamiquement plausibles, leur dépendance à des données 3D de haute qualité capturées en environnement contrôlé limite fortement leur généralisation à des scénarios réels. Pour surmonter ces limitations, nous présentons SyncMV4D, le premier modèle générant conjointement des vidéos HOI multivues synchronisées et des mouvements 4D en unifiant l’apprentissage visuel, la dynamique du mouvement et la géométrie multivue. Notre cadre intègre deux innovations majeures : (1) un modèle de diffusion conjointe multivue (MJD) qui co-génère les vidéos HOI et les mouvements intermédiaires, et (2) un aligneur par diffusion de points (DPA) qui affine le mouvement intermédiaire brut en trajectoires ponctuelles métriques 4D alignées globalement. Pour coupler étroitement l'apparence 2D et la dynamique 4D, nous établissons une boucle fermée à amélioration mutuelle. Durant le processus de dé-bruitage par diffusion, la vidéo générée conditionne le raffinement du mouvement 4D, tandis que les trajectoires de points 4D alignées sont reprojetées pour guider l'étape suivante de génération conjointe. Expérimentalement, notre méthode démontre des performances supérieures aux alternatives de l'état de l'art en matière de réalisme visuel, de plausibilité du mouvement et de cohérence multivue.
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.