PhyGenHOI: Физически-осведомленная 4D-генерация динамических взаимодействий человека с объектами

Аннотация

Мы решаем задачу генерации физически точных и визуально правдоподобных 4D-взаимодействий человека с объектом (ВЧО). Имея статического 3D-человека и целевой объект, представленные в виде 3D-гауссовых сплатов (3DGS), наша цель — синтезировать динамические сцены, в которых человек активно взаимодействует с объектом посредством действий, таких как удар кулаком или ногой, в соответствии с заданным входным текстом. Для этого мы представляем PhyGenHOI — новую структуру, сочетающую генеративную человеческую моторику с явной физической симуляцией объекта. Мы моделируем человека как семантического агента, управляемого моделью диффузии движений (MMD), а объект — как физического агента, симулируемого методом материальных точек (MMT), используя 3D-гауссианы в качестве единого дифференцируемого представления. Мы управляем их взаимодействием через три взаимосвязанных механизма: (1) Оконная функция потерь притяжения, которая временно синхронизирует генеративные движения для перехвата объекта; (2) Этап повторной симуляции на основе контакта, который инициирует физически согласованную передачу импульса при столкновении; и (3) Маскированная цель Video-SDS, которая внедряет видеоприоры для улучшения достоверности контакта. Эксперименты показывают, что PhyGenHOI генерирует физически согласованные 4D-ВЧО для различных действий, людей и объектов, превосходя базовые подходы. Страница проекта и видео: https://omerbenishu.github.io/PhyGenHOI/

English

We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and target object represented as 3D Gaussian Splats (3DGS), our goal is to synthesize dynamic scenes where the human actively engages with the object through actions, such as punching or kicking, in accordance with a given input text. To this end, we introduce PhyGenHOI, a novel framework that couples generative human motion with an explicit physical object simulation. We model the human as a semantic agent driven by a Motion Diffusion Model (MDM) and the object as a physical agent simulated via the Material Point Method (MPM), utilizing 3D Gaussians as a unified, differentiable representation. We supervise their interaction through three coupled mechanisms: (1) A Windowed Attraction Loss that temporally synchronizes generative motion to intercept the object; (2) A Contact-Driven Re-simulation step that triggers physically consistent momentum transfer upon impact; and (3) A Masked Video-SDS objective that injects video-based priors to enhance contact fidelity. Experiments show PhyGenHOI generates physically consistent 4D HOI across diverse actions, humans, and objects, outperforming baselines. Project page and videos: https://omerbenishu.github.io/PhyGenHOI/