PhyGenHOI: Generación 4D Físicamente Consciente de Interacciones Dinámicas Humano-Objeto

Resumen

Abordamos la tarea de generar interacciones 4D humano-objeto (HOI) físicamente precisas y visualmente fieles. Dado un humano 3D estático y un objeto objetivo representados como Splats Gaussianos 3D (3DGS), nuestro objetivo es sintetizar escenas dinámicas donde el humano interactúe activamente con el objeto mediante acciones, como golpear o patear, de acuerdo con un texto de entrada dado. Para ello, introducimos PhyGenHOI, un novedoso marco que acopla el movimiento humano generativo con una simulación física explícita del objeto. Modelamos al humano como un agente semántico impulsado por un Modelo de Difusión de Movimiento (MDM) y al objeto como un agente físico simulado mediante el Método de Puntos Materiales (MPM), utilizando Gaussianas 3D como representación unificada y diferenciable. Supervisamos su interacción a través de tres mecanismos acoplados: (1) una Pérdida de Atracción Ventaneada que sincroniza temporalmente el movimiento generativo para interceptar el objeto; (2) un paso de Re-simulación Impulsada por Contacto que desencadena una transferencia de momento físicamente consistente tras el impacto; y (3) un objetivo de SDS de Video Enmascarado que inyecta prioridades basadas en video para mejorar la fidelidad del contacto. Los experimentos muestran que PhyGenHOI genera HOI 4D físicamente consistentes en diversas acciones, humanos y objetos, superando a las líneas base. Página del proyecto y videos: https://omerbenishu.github.io/PhyGenHOI/

English

We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and target object represented as 3D Gaussian Splats (3DGS), our goal is to synthesize dynamic scenes where the human actively engages with the object through actions, such as punching or kicking, in accordance with a given input text. To this end, we introduce PhyGenHOI, a novel framework that couples generative human motion with an explicit physical object simulation. We model the human as a semantic agent driven by a Motion Diffusion Model (MDM) and the object as a physical agent simulated via the Material Point Method (MPM), utilizing 3D Gaussians as a unified, differentiable representation. We supervise their interaction through three coupled mechanisms: (1) A Windowed Attraction Loss that temporally synchronizes generative motion to intercept the object; (2) A Contact-Driven Re-simulation step that triggers physically consistent momentum transfer upon impact; and (3) A Masked Video-SDS objective that injects video-based priors to enhance contact fidelity. Experiments show PhyGenHOI generates physically consistent 4D HOI across diverse actions, humans, and objects, outperforming baselines. Project page and videos: https://omerbenishu.github.io/PhyGenHOI/