SViMo: Diffusione Sincronizzata per la Generazione di Video e Movimenti in Scenari di Interazione Mano-Oggetto
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
Autori: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
Abstract
La generazione di interazioni mano-oggetto (Hand-Object Interaction, HOI) presenta un significativo potenziale applicativo. Tuttavia, gli approcci attuali per la generazione di movimenti 3D HOI si basano fortemente su modelli 3D predefiniti e dati di movimento acquisiti in laboratorio, limitando le capacità di generalizzazione. Nel frattempo, i metodi di generazione di video HOI privilegiano la fedeltà visiva a livello di pixel, spesso sacrificando la plausibilità fisica. Riconoscendo che l'aspetto visivo e i pattern di movimento condividono leggi fisiche fondamentali nel mondo reale, proponiamo un nuovo framework che combina prior visivi e vincoli dinamici all'interno di un processo di diffusione sincronizzato per generare simultaneamente il video e il movimento HOI. Per integrare le eterogenee semantiche, l'aspetto e le caratteristiche del movimento, il nostro metodo implementa una modulazione adattiva tri-modale per l'allineamento delle caratteristiche, abbinata a un'attenzione completa 3D per modellare le dipendenze inter- e intra-modali. Inoltre, introduciamo un modello di diffusione di interazione 3D consapevole della visione che genera sequenze di interazione 3D esplicite direttamente dagli output della diffusione sincronizzata, per poi riutilizzarle in un ciclo di feedback a circuito chiuso. Questa architettura elimina le dipendenze da modelli di oggetti predefiniti o da guide esplicite di posa, migliorando significativamente la coerenza tra video e movimento. I risultati sperimentali dimostrano la superiorità del nostro metodo rispetto agli approcci all'avanguardia nella generazione di sequenze HOI ad alta fedeltà e dinamicamente plausibili, con notevoli capacità di generalizzazione in scenari reali non visti. Pagina del progetto disponibile all'indirizzo https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.