PhyGenHOI : Génération 4D physiquement consciente d'interactions dynamiques humain-objet

Résumé

Nous abordons la tâche de génération d'interactions humain-objet (IHO) 4D physiquement précises et visuellement fidèles. Étant donné un humain 3D statique et un objet cible représentés sous forme de Splats gaussiens 3D (3DGS), notre objectif est de synthétiser des scènes dynamiques où l'humain interagit activement avec l'objet à travers des actions, comme donner un coup de poing ou un coup de pied, conformément à un texte d'entrée donné. Pour cela, nous introduisons PhyGenHOI, un nouveau cadre qui couple le mouvement humain génératif à une simulation physique explicite de l'objet. Nous modélisons l'humain comme un agent sémantique piloté par un modèle de diffusion de mouvement (MDM) et l'objet comme un agent physique simulé via la méthode des points matériels (MPM), en utilisant les gaussiens 3D comme une représentation unifiée et différentiable. Nous supervisons leur interaction via trois mécanismes couplés : (1) une perte d'attraction fenêtrée qui synchronise temporellement le mouvement génératif pour intercepter l'objet ; (2) une étape de re-simulation pilotée par le contact qui déclenche un transfert de quantité de mouvement physiquement cohérent lors de l'impact ; et (3) un objectif SDS vidéo masqué qui injecte des a priori vidéo pour améliorer la fidélité du contact. Les expériences montrent que PhyGenHOI génère des IHO 4D physiquement cohérentes pour diverses actions, humains et objets, surpassant les références. Page du projet et vidéos : https://omerbenishu.github.io/PhyGenHOI/

English

We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and target object represented as 3D Gaussian Splats (3DGS), our goal is to synthesize dynamic scenes where the human actively engages with the object through actions, such as punching or kicking, in accordance with a given input text. To this end, we introduce PhyGenHOI, a novel framework that couples generative human motion with an explicit physical object simulation. We model the human as a semantic agent driven by a Motion Diffusion Model (MDM) and the object as a physical agent simulated via the Material Point Method (MPM), utilizing 3D Gaussians as a unified, differentiable representation. We supervise their interaction through three coupled mechanisms: (1) A Windowed Attraction Loss that temporally synchronizes generative motion to intercept the object; (2) A Contact-Driven Re-simulation step that triggers physically consistent momentum transfer upon impact; and (3) A Masked Video-SDS objective that injects video-based priors to enhance contact fidelity. Experiments show PhyGenHOI generates physically consistent 4D HOI across diverse actions, humans, and objects, outperforming baselines. Project page and videos: https://omerbenishu.github.io/PhyGenHOI/