ChatPaper.aiChatPaper

CRISP : Reconstruction Réaliste vers Simulation Guidée par le Contact à partir d'une Vidéo Monoculaire avec des Primitives de Scène Planaires

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

December 16, 2025
papers.authors: Zihan Wang, Jiashun Wang, Jeff Tan, Yiwen Zhao, Jessica Hodgins, Shubham Tulsiani, Deva Ramanan
cs.AI

papers.abstract

Nous présentons CRISP, une méthode qui reconstruit une cinématique humaine simulable et la géométrie de la scène à partir d'une vidéo monoculaire. Les travaux antérieurs sur la reconstruction conjointe humain-scène s'appuient sur des préconisations issues des données et sur une optimisation conjointe sans intégration de la physique, ou produisent une géométrie bruitée avec des artéfacts qui entraînent l'échec des politiques de suivi du mouvement lors d'interactions avec la scène. En revanche, notre idée clé est de reconstruire une géométrie convexe, propre et prête pour la simulation en ajustant des primitives planes à une reconstruction de la scène sous forme de nuage de points, via un pipeline simple de clustering basé sur la profondeur, les normales et le flux. Pour reconstruire la géométrie de la scène pouvant être occultée durant les interactions, nous utilisons une modélisation des contacts humain-scène (par exemple, nous utilisons la posture humaine pour reconstruire l'assise occultée d'une chaise). Enfin, nous garantissons la plausibilité physique des reconstructions humaines et scéniques en les utilisant pour piloter un contrôleur d'avatar humanoïde via l'apprentissage par renforcement. Notre approche réduit le taux d'échec du suivi du mouvement de 55,2 % à 6,9 % sur des benchmarks vidéo centrés sur l'humain (EMDB, PROX), tout en offrant un débit de simulation par renforcement 43 % plus rapide. Nous la validons en outre sur des vidéos en conditions réelles, incluant des vidéos capturées de manière informelle, des vidéos Internet, et même des vidéos générées par Sora. Cela démontre la capacité de CRISP à générer à grande échelle des mouvements humains et des environnements d'interaction physiquement valides, faisant ainsi progresser significativement les applications réel-vers-sim pour la robotique et la RA/RV.
English
We introduce CRISP, a method that recovers simulatable human motion and scene geometry from monocular video. Prior work on joint human-scene reconstruction relies on data-driven priors and joint optimization with no physics in the loop, or recovers noisy geometry with artifacts that cause motion tracking policies with scene interactions to fail. In contrast, our key insight is to recover convex, clean, and simulation-ready geometry by fitting planar primitives to a point cloud reconstruction of the scene, via a simple clustering pipeline over depth, normals, and flow. To reconstruct scene geometry that might be occluded during interactions, we make use of human-scene contact modeling (e.g., we use human posture to reconstruct the occluded seat of a chair). Finally, we ensure that human and scene reconstructions are physically-plausible by using them to drive a humanoid controller via reinforcement learning. Our approach reduces motion tracking failure rates from 55.2\% to 6.9\% on human-centric video benchmarks (EMDB, PROX), while delivering a 43\% faster RL simulation throughput. We further validate it on in-the-wild videos including casually-captured videos, Internet videos, and even Sora-generated videos. This demonstrates CRISP's ability to generate physically-valid human motion and interaction environments at scale, greatly advancing real-to-sim applications for robotics and AR/VR.
PDF62December 18, 2025