ChatPaper.aiChatPaper

SViMo: Synchronisierte Diffusion für Video- und Bewegungsgenerierung in Hand-Objekt-Interaktionsszenarien

SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios

June 3, 2025
Autoren: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI

Zusammenfassung

Die Generierung von Hand-Objekt-Interaktionen (HOI) birgt ein erhebliches Anwendungspotenzial. Allerdings stützen sich aktuelle Ansätze zur 3D-HOI-Bewegungsgenerierung stark auf vordefinierte 3D-Objektmodelle und im Labor erfasste Bewegungsdaten, was die Generalisierungsfähigkeit einschränkt. Gleichzeitig priorisieren Methoden zur HOI-Videogenerierung die pixelgenaue visuelle Wiedergabetreue, oft auf Kosten der physikalischen Plausibilität. Da visuelle Erscheinung und Bewegungsmuster in der realen Welt grundlegenden physikalischen Gesetzen folgen, schlagen wir ein neuartiges Framework vor, das visuelle Prioritäten und dynamische Einschränkungen innerhalb eines synchronisierten Diffusionsprozesses kombiniert, um HOI-Videos und -Bewegungen gleichzeitig zu generieren. Um die heterogenen Semantiken, Erscheinungsmerkmale und Bewegungsmerkmale zu integrieren, implementiert unsere Methode eine tri-modale adaptive Modulation zur Merkmalsausrichtung, gekoppelt mit 3D-Vollaufmerksamkeit zur Modellierung inter- und intra-modaler Abhängigkeiten. Darüber hinaus führen wir ein visuell bewusstes 3D-Interaktionsdiffusionsmodell ein, das explizite 3D-Interaktionssequenzen direkt aus den synchronisierten Diffusionsausgaben generiert und diese dann zurückführt, um einen geschlossenen Feedback-Zyklus zu etablieren. Diese Architektur eliminiert die Abhängigkeit von vordefinierten Objektmodellen oder expliziter Posenerkennung und verbessert gleichzeitig die Konsistenz zwischen Video und Bewegung deutlich. Experimentelle Ergebnisse demonstrieren die Überlegenheit unserer Methode gegenüber modernsten Ansätzen bei der Generierung von hochwertigen, dynamisch plausiblen HOI-Sequenzen mit bemerkenswerten Generalisierungsfähigkeiten in unbekannten realen Szenarien. Projektseite unter https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application potential. However, current 3D HOI motion generation approaches heavily rely on predefined 3D object models and lab-captured motion data, limiting generalization capabilities. Meanwhile, HOI video generation methods prioritize pixel-level visual fidelity, often sacrificing physical plausibility. Recognizing that visual appearance and motion patterns share fundamental physical laws in the real world, we propose a novel framework that combines visual priors and dynamic constraints within a synchronized diffusion process to generate the HOI video and motion simultaneously. To integrate the heterogeneous semantics, appearance, and motion features, our method implements tri-modal adaptive modulation for feature aligning, coupled with 3D full-attention for modeling inter- and intra-modal dependencies. Furthermore, we introduce a vision-aware 3D interaction diffusion model that generates explicit 3D interaction sequences directly from the synchronized diffusion outputs, then feeds them back to establish a closed-loop feedback cycle. This architecture eliminates dependencies on predefined object models or explicit pose guidance while significantly enhancing video-motion consistency. Experimental results demonstrate our method's superiority over state-of-the-art approaches in generating high-fidelity, dynamically plausible HOI sequences, with notable generalization capabilities in unseen real-world scenarios. Project page at https://github.com/Droliven/SViMo\_project.
PDF13June 6, 2025