ChatPaper.aiChatPaper

Splatting physischer Szenen: End-to-End Real-to-Sim aus unvollkommenen Roboter-Daten

Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data

June 4, 2025
papers.authors: Ben Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever
cs.AI

papers.abstract

Die Erstellung präziser, physikalischer Simulationen direkt aus der Bewegung realer Roboter bietet großen Nutzen für sicheres, skalierbares und kostengünstiges Roboterlernen, bleibt jedoch äußerst anspruchsvoll. Reale Roboterdaten leiden unter Verdeckungen, verrauschten Kamerapositionen und dynamischen Szenelementen, was die Erstellung geometrisch genauer und fotorealistischer digitaler Zwillinge unbekannter Objekte erschwert. Wir stellen ein neuartiges Real-to-Sim-Framework vor, das all diese Herausforderungen gleichzeitig bewältigt. Unser zentraler Ansatz ist eine hybride Szenendarstellung, die das fotorealistische Rendering von 3D-Gaußschen Splats mit expliziten Objektnetzen, die für physikalische Simulationen geeignet sind, in einer einzigen Repräsentation vereint. Wir schlagen eine End-to-End-Optimierungspipeline vor, die differenzierbares Rendering und differenzierbare Physik innerhalb von MuJoCo nutzt, um alle Szenenkomponenten – von der Objektgeometrie und -erscheinung bis hin zu Roboterpositionen und physikalischen Parametern – direkt aus rohen und ungenauen Roboterbahnen gemeinsam zu verfeinern. Diese einheitliche Optimierung ermöglicht es uns, gleichzeitig hochgenaue Objektnetzrekonstruktionen zu erreichen, fotorealistische neue Ansichten zu generieren und annotierungsfreie Roboterpositionskalibrierungen durchzuführen. Wir demonstrieren die Wirksamkeit unseres Ansatzes sowohl in der Simulation als auch anhand anspruchsvoller realer Sequenzen mit einem ALOHA 2 bimanuellen Manipulator, wodurch praktischere und robustere Real-to-Simulation-Pipelines ermöglicht werden.
English
Creating accurate, physical simulations directly from real-world robot motion holds great value for safe, scalable, and affordable robot learning, yet remains exceptionally challenging. Real robot data suffers from occlusions, noisy camera poses, dynamic scene elements, which hinder the creation of geometrically accurate and photorealistic digital twins of unseen objects. We introduce a novel real-to-sim framework tackling all these challenges at once. Our key insight is a hybrid scene representation merging the photorealistic rendering of 3D Gaussian Splatting with explicit object meshes suitable for physics simulation within a single representation. We propose an end-to-end optimization pipeline that leverages differentiable rendering and differentiable physics within MuJoCo to jointly refine all scene components - from object geometry and appearance to robot poses and physical parameters - directly from raw and imprecise robot trajectories. This unified optimization allows us to simultaneously achieve high-fidelity object mesh reconstruction, generate photorealistic novel views, and perform annotation-free robot pose calibration. We demonstrate the effectiveness of our approach both in simulation and on challenging real-world sequences using an ALOHA 2 bi-manual manipulator, enabling more practical and robust real-to-simulation pipelines.
PDF72June 9, 2025