PhyGenHOI: Geração 4D Fisicamente Consciente de Interações Dinâmicas entre Humano e Objeto

Resumo

Abordamos a tarefa de gerar Interação Humano-Objeto (HOI) 4D fisicamente precisa e visualmente fiel. Dado um humano 3D estático e um objeto alvo representados como Splats Gaussianos 3D (3DGS), nosso objetivo é sintetizar cenas dinâmicas nas quais o humano interage ativamente com o objeto por meio de ações, como socar ou chutar, de acordo com um texto de entrada fornecido. Para isso, introduzimos o PhyGenHOI, uma nova estrutura que acopla movimento humano generativo a uma simulação física explícita do objeto. Modelamos o humano como um agente semântico orientado por um Modelo de Difusão de Movimento (MDM) e o objeto como um agente físico simulado via Método de Pontos Materiais (MPM), utilizando Gaussianos 3D como uma representação unificada e diferenciável. Supervisionamos sua interação por meio de três mecanismos acoplados: (1) uma Perda de Atração Janelada que sincroniza temporalmente o movimento generativo para interceptar o objeto; (2) uma etapa de Re-simulação Orientada por Contato que desencadeia transferência de momento fisicamente consistente no impacto; e (3) um objetivo de SDS de Vídeo Mascarado que injeta prioridades baseadas em vídeo para melhorar a fidelidade do contato. Experimentos mostram que o PhyGenHOI gera HOI 4D fisicamente consistente em diversas ações, humanos e objetos, superando as linhas de base. Página do projeto e vídeos: https://omerbenishu.github.io/PhyGenHOI/

English

We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and target object represented as 3D Gaussian Splats (3DGS), our goal is to synthesize dynamic scenes where the human actively engages with the object through actions, such as punching or kicking, in accordance with a given input text. To this end, we introduce PhyGenHOI, a novel framework that couples generative human motion with an explicit physical object simulation. We model the human as a semantic agent driven by a Motion Diffusion Model (MDM) and the object as a physical agent simulated via the Material Point Method (MPM), utilizing 3D Gaussians as a unified, differentiable representation. We supervise their interaction through three coupled mechanisms: (1) A Windowed Attraction Loss that temporally synchronizes generative motion to intercept the object; (2) A Contact-Driven Re-simulation step that triggers physically consistent momentum transfer upon impact; and (3) A Masked Video-SDS objective that injects video-based priors to enhance contact fidelity. Experiments show PhyGenHOI generates physically consistent 4D HOI across diverse actions, humans, and objects, outperforming baselines. Project page and videos: https://omerbenishu.github.io/PhyGenHOI/