HSImul3R: Ricostruzione con Fisica in Ciclo di Interazioni Uomo-Scena Pronte per la Simulazione

Abstract

Presentiamo HSImul3R, un framework unificato per la ricostruzione 3D, pronta per la simulazione, di interazioni persona-ambiente (HSI) a partire da acquisizioni casuali, incluse immagini a visuali sparse e video monoculari. I metodi esistenti soffrono di un divario percezione-simulazione: ricostruzioni visivamente plausibili violano spesso i vincoli fisici, portando a instabilità nei motori fisici e a fallimenti nelle applicazioni di AI incarnata. Per colmare questa lacuna, introduciamo una pipeline di ottimizzazione bidirezionale basata sulla fisica, che tratta il simulatore fisico come un supervisore attivo per affinare congiuntamente la dinamica umana e la geometria della scena. Nella direzione forward, impieghiamo un Reinforcement Learning mirato alla Scena per ottimizzare il movimento umano sotto una doppia supervisione di fedeltà motoria e stabilità dei contatti. Nella direzione inversa, proponiamo l'Ottimizzazione del Reward di Simulazione Diretta, che sfrutta il feedback della simulazione sulla stabilità gravitazionale e sul successo dell'interazione per perfezionare la geometria della scena. Presentiamo inoltre HSIBench, un nuovo benchmark con oggetti diversificati e scenari di interazione. Esperimenti estensivi dimostrano che HSImul3R produce le prime ricostruzioni HSI stabili e pronte per la simulazione, che possono essere implementate direttamente su robot umanoidi nel mondo reale.

English

We present HSImul3R, a unified framework for simulation-ready 3D reconstruction of human-scene interactions (HSI) from casual captures, including sparse-view images and monocular videos. Existing methods suffer from a perception-simulation gap: visually plausible reconstructions often violate physical constraints, leading to instability in physics engines and failure in embodied AI applications. To bridge this gap, we introduce a physically-grounded bi-directional optimization pipeline that treats the physics simulator as an active supervisor to jointly refine human dynamics and scene geometry. In the forward direction, we employ Scene-targeted Reinforcement Learning to optimize human motion under dual supervision of motion fidelity and contact stability. In the reverse direction, we propose Direct Simulation Reward Optimization, which leverages simulation feedback on gravitational stability and interaction success to refine scene geometry. We further present HSIBench, a new benchmark with diverse objects and interaction scenarios. Extensive experiments demonstrate that HSImul3R produces the first stable, simulation-ready HSI reconstructions and can be directly deployed to real-world humanoid robots.

HSImul3R: Ricostruzione con Fisica in Ciclo di Interazioni Uomo-Scena Pronte per la Simulazione

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Abstract

Support