SyncMV4D: Synchronisierte Multi-View-Gemeinsamdiffusion von Erscheinungsbild und Bewegung für die Synthese von Hand-Objekt-Interaktionen
SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
November 24, 2025
papers.authors: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI
papers.abstract
Die Generierung von Hand-Objekt-Interaktionen (HOI) spielt eine entscheidende Rolle für die Weiterentwicklung von Anwendungen in den Bereichen Animation und Robotik. Aktuelle videobasierte Methoden sind überwiegend einseitig (Single-View), was eine umfassende 3D-Geometrieerfassung behindert und häufig zu geometrischen Verzerrungen oder unrealistischen Bewegungsmustern führt. Während 3D-HOI-Ansätze dynamisch plausible Bewegungen erzeugen können, schränkt ihre Abhängigkeit von hochwertigen 3D-Daten, die in kontrollierten Laborumgebungen erfasst werden, ihre Generalisierbarkeit auf reale Szenarien stark ein. Um diese Einschränkungen zu überwinden, stellen wir SyncMV4D vor, das erste Modell, das synchronisierte Multi-View-HOI-Videos und 4D-Bewegungen gemeinsam generiert, indem es visuelle Priors, Bewegungsdynamik und Multi-View-Geometrie vereint. Unser Framework zeichnet sich durch zwei zentrale Innovationen aus: (1) ein Multi-View Joint Diffusion (MJD)-Modell, das HOI-Videos und Zwischenbewegungen ko-generiert, und (2) einen Diffusion Points Aligner (DPA), der die groben Zwischenbewegungen zu global ausgerichteten 4D-metrischen Punktverfolgungen verfeinert. Um die 2D-Darstellung eng mit der 4D-Dynamik zu koppeln, etablieren wir einen geschlossenen, sich gegenseitig verstärkenden Kreislauf. Während des Diffusions-Denoising-Prozesses konditioniert das generierte Video die Verfeinerung der 4D-Bewegung, während die ausgerichteten 4D-Punktverfolgungen rückprojiziert werden, um die gemeinsame Generierung im nächsten Schritt zu steuern. Experimentell zeigt unsere Methode eine überlegene Leistung im Vergleich zu modernen Alternativen in Bezug auf visuelle Realitätsnähe, Bewegungsplausibilität und Multi-View-Konsistenz.
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.