SyncMV4D: Gesynchroniseerde multi-view gezamenlijke diffusie van uiterlijk en beweging voor synthese van hand-objectinteracties
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
November 24, 2025
Auteurs: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI
Samenvatting
Hand-Object Interactie (HOI)-generatie speelt een cruciale rol in de vooruitgang van toepassingen in animatie en robotica. Huidige, op video gebaseerde methoden zijn overwegend enkelvoudig van perspectief, wat een uitgebreid 3D-geometriebegrip belemmert en vaak leidt tot geometrische vervormingen of onrealistische bewegingspatronen. Hoewel 3D-HOI-benaderingen dynamisch plausibele bewegingen kunnen genereren, beperkt hun afhankelijkheid van hoogwaardige 3D-gegevens, vastgelegd in gecontroleerde laboratoriumomgevingen, de generalisatie naar realistische scenario's ernstig. Om deze beperkingen te overwinnen, introduceren wij SyncMV4D, het eerste model dat gesynchroniseerde multi-view HOI-video's en 4D-bewegingen gezamenlijk genereert door visuele voorkennis, bewegingsdynamica en multi-view geometrie te verenigen. Ons raamwerk kent twee kerninnovaties: (1) een Multi-view Joint Diffusion (MJD)-model dat gezamenlijk HOI-video's en tussenliggende bewegingen genereert, en (2) een Diffusion Points Aligner (DPA) die de grove tussenliggende beweging verfijnt tot globaal uitgelijnde 4D-metrische puntbanen. Om de 2D-weergave strak te koppelen aan de 4D-dynamica, vestigen we een gesloten, elkaar versterkende cyclus. Tijdens het diffusie-denoisingsproces conditioneert de gegenereerde video de verfijning van de 4D-beweging, terwijl de uitgelijnde 4D-puntbanen worden teruggeprojecteerd om de gezamenlijke generatie in de volgende stap te sturen. Experimenteel toont onze methode superieure prestaties aan ten opzichte van state-of-the-art alternatieven op het gebied van visuele realiteit, bewegingsgeloofwaardigheid en multi-view consistentie.
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.