SViMo : Diffusion synchronisée pour la génération de vidéos et de mouvements dans des scénarios d'interaction main-objet
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
Auteurs: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
Résumé
La génération d'interactions main-objet (Hand-Object Interaction, HOI) présente un potentiel d'application significatif. Cependant, les approches actuelles de génération de mouvements 3D HOI reposent fortement sur des modèles d'objets 3D prédéfinis et des données de mouvement capturées en laboratoire, limitant ainsi leurs capacités de généralisation. Parallèlement, les méthodes de génération de vidéos HOI privilégient la fidélité visuelle au niveau des pixels, souvent au détriment de la plausibilité physique. Conscients que l'apparence visuelle et les motifs de mouvement partagent des lois physiques fondamentales dans le monde réel, nous proposons un nouveau cadre qui combine des préconceptions visuelles et des contraintes dynamiques au sein d'un processus de diffusion synchronisé pour générer simultanément la vidéo et le mouvement HOI. Pour intégrer les sémantiques hétérogènes, l'apparence et les caractéristiques de mouvement, notre méthode met en œuvre une modulation adaptative tri-modale pour l'alignement des caractéristiques, couplée à une attention complète 3D pour modéliser les dépendances inter et intra-modales. De plus, nous introduisons un modèle de diffusion d'interaction 3D conscient de la vision qui génère des séquences d'interaction 3D explicites directement à partir des sorties de diffusion synchronisées, puis les réinjecte pour établir un cycle de rétroaction en boucle fermée. Cette architecture élimine les dépendances aux modèles d'objets prédéfinis ou aux guidages de pose explicites tout en améliorant significativement la cohérence vidéo-mouvement. Les résultats expérimentaux démontrent la supériorité de notre méthode par rapport aux approches de pointe dans la génération de séquences HOI à haute fidélité et dynamiquement plausibles, avec des capacités de généralisation notables dans des scénarios réels inédits. Page du projet à l'adresse https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.