SViMo: Difusión Sincronizada para la Generación de Vídeo y Movimiento en Escenarios de Interacción Mano-Objeto
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
Autores: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
Resumen
La generación de interacción mano-objeto (HOI, por sus siglas en inglés) tiene un potencial de aplicación significativo. Sin embargo, los enfoques actuales de generación de movimiento HOI en 3D dependen en gran medida de modelos de objetos 3D predefinidos y datos de movimiento capturados en laboratorio, lo que limita las capacidades de generalización. Mientras tanto, los métodos de generación de videos HOI priorizan la fidelidad visual a nivel de píxel, a menudo sacrificando la plausibilidad física. Reconociendo que la apariencia visual y los patrones de movimiento comparten leyes físicas fundamentales en el mundo real, proponemos un marco novedoso que combina prioridades visuales y restricciones dinámicas dentro de un proceso de difusión sincronizado para generar simultáneamente el video y el movimiento HOI. Para integrar las semánticas heterogéneas, la apariencia y las características de movimiento, nuestro método implementa una modulación adaptativa trimodal para alinear características, junto con una atención completa en 3D para modelar dependencias inter e intra-modales. Además, introducimos un modelo de difusión de interacción 3D consciente de la visión que genera secuencias explícitas de interacción 3D directamente a partir de las salidas de difusión sincronizadas, y luego las retroalimenta para establecer un ciclo de retroalimentación cerrado. Esta arquitectura elimina las dependencias de modelos de objetos predefinidos o guías de pose explícitas, al tiempo que mejora significativamente la consistencia entre el video y el movimiento. Los resultados experimentales demuestran la superioridad de nuestro método sobre los enfoques más avanzados en la generación de secuencias HOI de alta fidelidad y dinámicamente plausibles, con notables capacidades de generalización en escenarios del mundo real no vistos. Página del proyecto en https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.