Projection de Scènes Physiques : Réalité à Simulation de Bout en Bout à partir de Données Robotiques Imparfaites
Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data
June 4, 2025
Auteurs: Ben Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever
cs.AI
Résumé
La création de simulations physiques précises directement à partir des mouvements réels de robots présente une grande valeur pour un apprentissage robotique sûr, évolutif et abordable, mais reste exceptionnellement difficile. Les données issues de robots réels souffrent d'occlusions, de poses de caméra bruitées et d'éléments dynamiques dans la scène, ce qui entrave la création de jumeaux numériques géométriquement précis et photoréalistes d'objets non observés. Nous introduisons un nouveau cadre réel-vers-sim qui relève simultanément tous ces défis. Notre idée clé repose sur une représentation hybride de la scène, combinant le rendu photoréaliste du *3D Gaussian Splatting* avec des maillages d'objets explicites adaptés à la simulation physique, le tout au sein d'une seule représentation. Nous proposons un pipeline d'optimisation de bout en bout qui exploite le rendu différentiable et la physique différentiable au sein de MuJoCo pour affiner conjointement tous les composants de la scène – de la géométrie et de l'apparence des objets aux poses du robot et aux paramètres physiques – directement à partir de trajectoires robotiques brutes et imprécises. Cette optimisation unifiée nous permet d'atteindre simultanément une reconstruction de maillage d'objet de haute fidélité, de générer des vues nouvelles photoréalistes et de réaliser une calibration des poses du robot sans annotation. Nous démontrons l'efficacité de notre approche à la fois en simulation et sur des séquences réelles complexes en utilisant un manipulateur bimanuel ALOHA 2, permettant ainsi des pipelines réel-vers-simulation plus pratiques et robustes.
English
Creating accurate, physical simulations directly from real-world robot motion
holds great value for safe, scalable, and affordable robot learning, yet
remains exceptionally challenging. Real robot data suffers from occlusions,
noisy camera poses, dynamic scene elements, which hinder the creation of
geometrically accurate and photorealistic digital twins of unseen objects. We
introduce a novel real-to-sim framework tackling all these challenges at once.
Our key insight is a hybrid scene representation merging the photorealistic
rendering of 3D Gaussian Splatting with explicit object meshes suitable for
physics simulation within a single representation. We propose an end-to-end
optimization pipeline that leverages differentiable rendering and
differentiable physics within MuJoCo to jointly refine all scene components -
from object geometry and appearance to robot poses and physical parameters -
directly from raw and imprecise robot trajectories. This unified optimization
allows us to simultaneously achieve high-fidelity object mesh reconstruction,
generate photorealistic novel views, and perform annotation-free robot pose
calibration. We demonstrate the effectiveness of our approach both in
simulation and on challenging real-world sequences using an ALOHA 2 bi-manual
manipulator, enabling more practical and robust real-to-simulation pipelines.