SyncMV4D: Difusão Conjunta Sincronizada de Aparência e Movimento em Múltiplas Visões para Síntese de Interação Mão-Objeto

Resumo

A geração de Interação Mão-Objeto (HOI) desempenha um papel crítico no avanço de aplicações nas áreas de animação e robótica. Os métodos atuais baseados em vídeo são predominantemente de visão única, o que dificulta uma percepção geométrica 3D abrangente e frequentemente resulta em distorções geométricas ou padrões de movimento irrealistas. Embora as abordagens de HOI 3D possam gerar movimentos dinamicamente plausíveis, sua dependência de dados 3D de alta qualidade capturados em ambientes laboratoriais controlados limita severamente sua generalização para cenários do mundo real. Para superar essas limitações, apresentamos o SyncMV4D, o primeiro modelo que gera conjuntamente vídeos HOI multi-visão sincronizados e movimentos 4D, unificando *prior* visual, dinâmica de movimento e geometria multi-visão. Nossa estrutura apresenta duas inovações principais: (1) um modelo de Difusão Conjunta Multi-visão (MJD) que co-gera vídeos HOI e movimentos intermediários, e (2) um Alinhador de Pontos por Difusão (DPA) que refina o movimento intermediário grosseiro em trilhas de pontos métricos 4D globalmente alinhadas. Para acoplar firmemente a aparência 2D com a dinâmica 4D, estabelecemos um ciclo de loop fechado e de reforço mútuo. Durante o processo de desruído por difusão, o vídeo gerado condiciona o refinamento do movimento 4D, enquanto as trilhas de pontos 4D alinhadas são reprojetadas para orientar a próxima etapa de geração conjunta. Experimentalmente, nosso método demonstra desempenho superior aos alternativas *state-of-the-art* em realismo visual, plausibilidade de movimento e consistência multi-visão.

English

Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.

SyncMV4D: Difusão Conjunta Sincronizada de Aparência e Movimento em Múltiplas Visões para Síntese de Interação Mão-Objeto

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Resumo

Support