不完全なロボットデータからのエンドツーエンド実世界-シミュレーション変換:物理シーンのスプラッティング
Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data
June 4, 2025
著者: Ben Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever
cs.AI
要旨
現実世界のロボット動作から直接、正確な物理シミュレーションを作成することは、安全でスケーラブルかつ低コストなロボット学習にとって非常に価値があるが、依然として非常に困難な課題である。実ロボットのデータは、遮蔽、ノイズの多いカメラポーズ、動的なシーン要素に悩まされており、未観測物体の幾何学的に正確でフォトリアルなデジタルツインの作成を妨げている。本研究では、これらの課題を一挙に解決する新しいリアル・トゥ・シミュレーションフレームワークを提案する。我々の重要な洞察は、3Dガウシアンスプラッティングによるフォトリアルなレンダリングと、物理シミュレーションに適した明示的なオブジェクトメッシュを単一の表現に統合したハイブリッドシーン表現である。我々は、MuJoCo内の微分可能なレンダリングと微分可能な物理を活用し、未加工で不正確なロボット軌跡から直接、オブジェクトの形状や外観、ロボットのポーズ、物理パラメータなど、すべてのシーン構成要素を共同で最適化するエンドツーエンドの最適化パイプラインを提案する。この統一された最適化により、高精度なオブジェクトメッシュ再構築、フォトリアルな新規ビューの生成、アノテーションフリーのロボットポーズキャリブレーションを同時に達成することが可能となる。我々は、ALOHA 2バイマニュアルマニピュレータを使用したシミュレーションおよび現実世界の困難なシーケンスにおいて、本手法の有効性を実証し、より実用的でロバストなリアル・トゥ・シミュレーションパイプラインを実現する。
English
Creating accurate, physical simulations directly from real-world robot motion
holds great value for safe, scalable, and affordable robot learning, yet
remains exceptionally challenging. Real robot data suffers from occlusions,
noisy camera poses, dynamic scene elements, which hinder the creation of
geometrically accurate and photorealistic digital twins of unseen objects. We
introduce a novel real-to-sim framework tackling all these challenges at once.
Our key insight is a hybrid scene representation merging the photorealistic
rendering of 3D Gaussian Splatting with explicit object meshes suitable for
physics simulation within a single representation. We propose an end-to-end
optimization pipeline that leverages differentiable rendering and
differentiable physics within MuJoCo to jointly refine all scene components -
from object geometry and appearance to robot poses and physical parameters -
directly from raw and imprecise robot trajectories. This unified optimization
allows us to simultaneously achieve high-fidelity object mesh reconstruction,
generate photorealistic novel views, and perform annotation-free robot pose
calibration. We demonstrate the effectiveness of our approach both in
simulation and on challenging real-world sequences using an ALOHA 2 bi-manual
manipulator, enabling more practical and robust real-to-simulation pipelines.