HSImul3R: Физически-интегрированная реконструкция готовых к симуляции взаимодействий человека со сценой

Аннотация

Мы представляем HSImul3R — унифицированный фреймворк для симуляционно-готового 3D-реконструирования взаимодействий человека и сцены (Human-Scene Interaction, HSI) на основе случайных съемок, включая изображения с разреженных ракурсов и монокулярные видео. Существующие методы страдают от разрыва между восприятием и симуляцией: визуально правдоподобные реконструкции часто нарушают физические ограничения, что приводит к нестабильности в физических движках и сбоям в приложениях воплощенного ИИ. Для преодоления этого разрыва мы предлагаем физически обоснованный двунаправленный конвейер оптимизации, который использует физический симулятор в качестве активного супервизора для совместного уточнения динамики человека и геометрии сцены. В прямом направлении мы применяем целевое обучение с подкреплением для сцены, чтобы оптимизировать движение человека под двойным контролем достоверности движений и стабильности контактов. В обратном направлении мы предлагаем прямую оптимизацию через симуляционные вознаграждения, которая использует обратную связь от симуляции по гравитационной устойчивости и успешности взаимодействия для уточнения геометрии сцены. Мы также представляем HSIBench — новый бенчмарк с разнообразными объектами и сценариями взаимодействия. Многочисленные эксперименты демонстрируют, что HSImul3R создает первые стабильные, симуляционно-готовые реконструкции HSI и может быть напрямую развернут на реальных гуманоидных роботах.

English

We present HSImul3R, a unified framework for simulation-ready 3D reconstruction of human-scene interactions (HSI) from casual captures, including sparse-view images and monocular videos. Existing methods suffer from a perception-simulation gap: visually plausible reconstructions often violate physical constraints, leading to instability in physics engines and failure in embodied AI applications. To bridge this gap, we introduce a physically-grounded bi-directional optimization pipeline that treats the physics simulator as an active supervisor to jointly refine human dynamics and scene geometry. In the forward direction, we employ Scene-targeted Reinforcement Learning to optimize human motion under dual supervision of motion fidelity and contact stability. In the reverse direction, we propose Direct Simulation Reward Optimization, which leverages simulation feedback on gravitational stability and interaction success to refine scene geometry. We further present HSIBench, a new benchmark with diverse objects and interaction scenarios. Extensive experiments demonstrate that HSImul3R produces the first stable, simulation-ready HSI reconstructions and can be directly deployed to real-world humanoid robots.

HSImul3R: Физически-интегрированная реконструкция готовых к симуляции взаимодействий человека со сценой

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

Аннотация

Support