SViMo: Synchronisierte Diffusion für Video- und Bewegungsgenerierung in Hand-Objekt-Interaktionsszenarien
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
Autoren: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
Zusammenfassung
Die Generierung von Hand-Objekt-Interaktionen (HOI) birgt ein erhebliches Anwendungspotenzial. Allerdings stützen sich aktuelle Ansätze zur 3D-HOI-Bewegungsgenerierung stark auf vordefinierte 3D-Objektmodelle und im Labor erfasste Bewegungsdaten, was die Generalisierungsfähigkeit einschränkt. Gleichzeitig priorisieren Methoden zur HOI-Videogenerierung die pixelgenaue visuelle Wiedergabetreue, oft auf Kosten der physikalischen Plausibilität. Da visuelle Erscheinung und Bewegungsmuster in der realen Welt grundlegenden physikalischen Gesetzen folgen, schlagen wir ein neuartiges Framework vor, das visuelle Prioritäten und dynamische Einschränkungen innerhalb eines synchronisierten Diffusionsprozesses kombiniert, um HOI-Videos und -Bewegungen gleichzeitig zu generieren. Um die heterogenen Semantiken, Erscheinungsmerkmale und Bewegungsmerkmale zu integrieren, implementiert unsere Methode eine tri-modale adaptive Modulation zur Merkmalsausrichtung, gekoppelt mit 3D-Vollaufmerksamkeit zur Modellierung inter- und intra-modaler Abhängigkeiten. Darüber hinaus führen wir ein visuell bewusstes 3D-Interaktionsdiffusionsmodell ein, das explizite 3D-Interaktionssequenzen direkt aus den synchronisierten Diffusionsausgaben generiert und diese dann zurückführt, um einen geschlossenen Feedback-Zyklus zu etablieren. Diese Architektur eliminiert die Abhängigkeit von vordefinierten Objektmodellen oder expliziter Posenerkennung und verbessert gleichzeitig die Konsistenz zwischen Video und Bewegung deutlich. Experimentelle Ergebnisse demonstrieren die Überlegenheit unserer Methode gegenüber modernsten Ansätzen bei der Generierung von hochwertigen, dynamisch plausiblen HOI-Sequenzen mit bemerkenswerten Generalisierungsfähigkeiten in unbekannten realen Szenarien. Projektseite unter https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.