ChatPaper.aiChatPaper

PhyGenHOI: 물리 인식 4D 동적 인간-객체 상호작용 생성

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

May 28, 2026
저자: Omer Benishu, Gal Fiebelman, Sagie Benaim
cs.AI

초록

본 연구는 물리적으로 정확하고 시각적으로 충실한 4D 인간-물체 상호작용(HOI) 생성 작업을 다룹니다. 정적인 3D 인간과 대상 물체가 3D 가우시안 스플랫(3DGS)으로 표현된 상태에서, 우리의 목표는 입력 텍스트에 따라 펀치나 발차기와 같은 동작을 통해 인간이 물체와 능동적으로 상호작용하는 동적 장면을 합성하는 것입니다. 이를 위해 우리는 생성적 인간 움직임과 명시적 물리적 물체 시뮬레이션을 결합한 새로운 프레임워크인 PhyGenHOI를 소개합니다. 우리는 인간을 동작 확산 모델(MDM)에 의해 구동되는 의미적 에이전트로, 물체를 재료 점 방법(MPM)을 통해 시뮬레이션되는 물리적 에이전트로 모델링하며, 통합적이고 미분 가능한 표현으로 3D 가우시안을 활용합니다. 이들의 상호작용은 세 가지 결합 메커니즘을 통해 감독됩니다: (1) 생성적 움직임을 시간적으로 동기화하여 물체를 가로채기 위한 윈도우 기반 인력 손실; (2) 충돌 시 물리적으로 일관된 운동량 전달을 유발하는 접촉 기반 재시뮬레이션 단계; (3) 접촉 충실도를 향상시키기 위해 비디오 기반 사전 정보를 주입하는 마스크된 비디오-SDS 목적 함수. 실험 결과, PhyGenHOI는 다양한 동작, 인간, 물체에 걸쳐 물리적으로 일관된 4D HOI를 생성하며, 기준 모델들을 능가함을 보여줍니다. 프로젝트 페이지 및 비디오: https://omerbenishu.github.io/PhyGenHOI/
English
We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and target object represented as 3D Gaussian Splats (3DGS), our goal is to synthesize dynamic scenes where the human actively engages with the object through actions, such as punching or kicking, in accordance with a given input text. To this end, we introduce PhyGenHOI, a novel framework that couples generative human motion with an explicit physical object simulation. We model the human as a semantic agent driven by a Motion Diffusion Model (MDM) and the object as a physical agent simulated via the Material Point Method (MPM), utilizing 3D Gaussians as a unified, differentiable representation. We supervise their interaction through three coupled mechanisms: (1) A Windowed Attraction Loss that temporally synchronizes generative motion to intercept the object; (2) A Contact-Driven Re-simulation step that triggers physically consistent momentum transfer upon impact; and (3) A Masked Video-SDS objective that injects video-based priors to enhance contact fidelity. Experiments show PhyGenHOI generates physically consistent 4D HOI across diverse actions, humans, and objects, outperforming baselines. Project page and videos: https://omerbenishu.github.io/PhyGenHOI/