SyncMV4D: Difusión Conjunta Sincronizada Multivista de Apariencia y Movimiento para la Síntesis de Interacción Mano-Objeto
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
November 24, 2025
Autores: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI
Resumen
La generación de Interacción Mano-Objeto (HOI) desempeña un papel crucial en el avance de aplicaciones en animación y robótica. Los métodos actuales basados en video son predominantemente de vista única, lo que impide una percepción geométrica 3D integral y a menudo resulta en distorsiones geométricas o patrones de movimiento poco realistas. Si bien los enfoques de HOI 3D pueden generar movimientos dinámicamente plausibles, su dependencia de datos 3D de alta calidad capturados en entornos de laboratorio controlados limita severamente su generalización a escenarios del mundo real. Para superar estas limitaciones, presentamos SyncMV4D, el primer modelo que genera conjuntamente videos HOI multi-vista sincronizados y movimientos 4D mediante la unificación de conocimiento visual previo, dinámicas de movimiento y geometría multi-vista. Nuestro marco presenta dos innovaciones principales: (1) un modelo de Difusión Conjunta Multi-vista (MJD) que co-genera videos HOI y movimientos intermedios, y (2) un Alineador de Puntos por Difusión (DPA) que refina el movimiento intermedio aproximado en trayectorias de puntos métricos 4D globalmente alineadas. Para acoplar estrechamente la apariencia 2D con la dinámica 4D, establecemos un ciclo cerrado de mejora mutua. Durante el proceso de desruido por difusión, el video generado condiciona el refinamiento del movimiento 4D, mientras que las trayectorias de puntos 4D alineadas se reproyectan para guiar la siguiente generación conjunta. Experimentalmente, nuestro método demuestra un rendimiento superior a las alternativas más avanzadas en realismo visual, plausibilidad de movimiento y consistencia multi-vista.
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.