SyncMV4D: Diffusione Congiunta Sincronizzata Multi-vista di Aspetto e Movimento per la Sintesi di Interazioni Mano-Oggetto
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
November 24, 2025
Autori: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI
Abstract
La generazione di interazioni mano-oggetto (HOI) svolge un ruolo cruciale nel promuovere applicazioni nell'animazione e nella robotica. I metodi video attuali sono prevalentemente single-view, il che ostacola una percezione geometrica 3D completa e spesso si traduce in distorsioni geometriche o pattern di movimento irrealistici. Sebbene gli approcci HOI 3D possano generare movimenti dinamicamente plausibili, la loro dipendenza da dati 3D di alta qualità acquisiti in ambienti di laboratorio controllati ne limita fortemente la generalizzazione a scenari reali. Per superare queste limitazioni, introduciamo SyncMV4D, il primo modello che genera congiuntamente video HOI multi-view sincronizzati e movimenti 4D, unificando prior visivi, dinamica del movimento e geometria multi-view. Il nostro framework presenta due innovazioni fondamentali: (1) un modello di diffusione congiunta multi-view (MJD) che co-genera video HOI e movimenti intermedi, e (2) un allineatore a punti a diffusione (DPA) che affina il movimento intermedio grezzo in tracce di punti metrici 4D allineate globalmente. Per accoppiare strettamente l'aspetto 2D con la dinamica 4D, stabiliamo un ciclo chiuso e mutualmente migliorativo. Durante il processo di denoising della diffusione, il video generato condiziona il raffinamento del movimento 4D, mentre le tracce di punti 4D allineate vengono riproiettate per guidare la generazione congiunta allo step successivo. Sperimentalmente, il nostro metodo dimostra prestazioni superiori alle alternative state-of-the-art in realismo visivo, plausibilità del movimento e coerenza multi-view.
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.