PhyGenHOI: Physikbewusste 4D-Generierung dynamischer Mensch-Objekt-Interaktionen

Zusammenfassung

Wir befassen uns mit der Aufgabe, physikalisch akkurate und visuell treue 4D-Mensch-Objekt-Interaktionen (HOI) zu generieren. Gegeben ein statischer 3D-Mensch und ein Zielobjekt, dargestellt als 3D-Gauß-Splats (3DGS), ist es unser Ziel, dynamische Szenen zu synthetisieren, in denen der Mensch aktiv mit dem Objekt interagiert, z. B. durch Schlagen oder Treten, gemäß einem vorgegebenen Eingabetext. Zu diesem Zweck führen wir PhyGenHOI ein, ein neuartiges Framework, das generative menschliche Bewegung mit einer expliziten physikalischen Objektsimulation koppelt. Wir modellieren den Menschen als semantischen Agenten, der durch ein Motion Diffusion Model (MDM) gesteuert wird, und das Objekt als physikalischen Agenten, der mittels der Material Point Method (MPM) simuliert wird, wobei wir 3D-Gauß-Verteilungen als eine einheitliche, differenzierbare Darstellung nutzen. Wir überwachen ihre Interaktion durch drei gekoppelte Mechanismen: (1) einen gefensterten Attraktionsverlust (Windowed Attraction Loss), der generative Bewegung zeitlich synchronisiert, um das Objekt abzufangen; (2) einen kontaktgetriebenen Resimulationsschritt (Contact-Driven Re-simulation), der bei Impakt einen physikalisch konsistenten Impulsübertrag auslöst; und (3) ein maskiertes Video-SDS-Ziel (Masked Video-SDS objective), das videobasierte Priors einbringt, um die Kontakttreue zu verbessern. Experimente zeigen, dass PhyGenHOI physikalisch konsistente 4D-HOI über verschiedene Aktionen, Menschen und Objekte hinweg generiert und dabei Baselines übertrifft. Projektseite und Videos: https://omerbenishu.github.io/PhyGenHOI/

English

We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and target object represented as 3D Gaussian Splats (3DGS), our goal is to synthesize dynamic scenes where the human actively engages with the object through actions, such as punching or kicking, in accordance with a given input text. To this end, we introduce PhyGenHOI, a novel framework that couples generative human motion with an explicit physical object simulation. We model the human as a semantic agent driven by a Motion Diffusion Model (MDM) and the object as a physical agent simulated via the Material Point Method (MPM), utilizing 3D Gaussians as a unified, differentiable representation. We supervise their interaction through three coupled mechanisms: (1) A Windowed Attraction Loss that temporally synchronizes generative motion to intercept the object; (2) A Contact-Driven Re-simulation step that triggers physically consistent momentum transfer upon impact; and (3) A Masked Video-SDS objective that injects video-based priors to enhance contact fidelity. Experiments show PhyGenHOI generates physically consistent 4D HOI across diverse actions, humans, and objects, outperforming baselines. Project page and videos: https://omerbenishu.github.io/PhyGenHOI/