SViMo: Gesynchroniseerde diffusie voor video- en bewegingsgeneratie in hand-object interactiescenario's
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
Auteurs: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
Samenvatting
Hand-Object Interaction (HOI)-generatie heeft aanzienlijk toepassingspotentieel. Huidige benaderingen voor 3D HOI-bewegingsgeneratie zijn echter sterk afhankelijk van vooraf gedefinieerde 3D-objectmodellen en in het lab vastgelegde bewegingsdata, wat de generalisatiemogelijkheden beperkt. Tegelijkertijd richten HOI-videogeneratiemethoden zich vooral op pixelnauwkeurige visuele kwaliteit, vaak ten koste van fysieke geloofwaardigheid. Omdat visuele verschijning en bewegingspatronen in de echte wereld fundamentele fysieke wetten delen, stellen we een nieuw framework voor dat visuele priors en dynamische beperkingen combineert binnen een gesynchroniseerd diffusieproces om de HOI-video en -beweging gelijktijdig te genereren. Om de heterogene semantiek, verschijning en bewegingskenmerken te integreren, implementeert onze methode tri-modale adaptieve modulatie voor kenmerkuitlijning, gekoppeld aan 3D volledige aandacht voor het modelleren van inter- en intra-modale afhankelijkheden. Bovendien introduceren we een vision-aware 3D-interactiediffusiemodel dat expliciete 3D-interactiesequenties direct genereert vanuit de gesynchroniseerde diffusie-uitvoer, en deze vervolgens terugvoert om een gesloten feedbackcyclus te creëren. Deze architectuur elimineert de afhankelijkheid van vooraf gedefinieerde objectmodellen of expliciete pose-guidance, terwijl de consistentie tussen video en beweging aanzienlijk wordt verbeterd. Experimentele resultaten tonen de superioriteit van onze methode aan ten opzichte van state-of-the-art benaderingen in het genereren van hoogwaardige, dynamisch geloofwaardige HOI-sequenties, met opmerkelijke generalisatiemogelijkheden in onbekende real-world scenario's. Projectpagina op https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.