SViMo: Difusão Sincronizada para Geração de Vídeo e Movimento em Cenários de Interação Mão-Objeto
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
Autores: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
Resumo
A geração de Interação Mão-Objeto (HOI) possui um potencial de aplicação significativo. No entanto, as abordagens atuais de geração de movimento 3D HOI dependem fortemente de modelos 3D predefinidos e dados de movimento capturados em laboratório, limitando as capacidades de generalização. Enquanto isso, os métodos de geração de vídeo HOI priorizam a fidelidade visual em nível de pixel, muitas vezes sacrificando a plausibilidade física. Reconhecendo que a aparência visual e os padrões de movimento compartilham leis físicas fundamentais no mundo real, propomos uma nova estrutura que combina prioridades visuais e restrições dinâmicas dentro de um processo de difusão sincronizado para gerar o vídeo e o movimento HOI simultaneamente. Para integrar as semânticas heterogêneas, aparência e características de movimento, nosso método implementa modulação adaptativa tri-modal para alinhamento de características, juntamente com atenção completa 3D para modelar dependências inter e intra-modais. Além disso, introduzimos um modelo de difusão de interação 3D consciente da visão que gera sequências explícitas de interação 3D diretamente a partir das saídas de difusão sincronizadas, então as retroalimenta para estabelecer um ciclo de feedback em loop fechado. Essa arquitetura elimina dependências de modelos de objetos predefinidos ou orientação explícita de pose, enquanto melhora significativamente a consistência vídeo-movimento. Resultados experimentais demonstram a superioridade do nosso método em relação às abordagens state-of-the-art na geração de sequências HOI de alta fidelidade e dinamicamente plausíveis, com capacidades notáveis de generalização em cenários do mundo real não vistos. Página do projeto em https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.