ガウススプラッティングを用いた実世界ゼロショットロボット操作学習のための高忠実度シミュレーションデータ生成
High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
October 12, 2025
著者: Haoyu Zhao, Cheng Zeng, Linghao Zhuang, Yaxi Zhao, Shengke Xue, Hao Wang, Xingyue Zhao, Zhongyu Li, Kehan Li, Siteng Huang, Mingxiu Chen, Xin Li, Deli Zhao, Hua Zou
cs.AI
要旨
ロボット学習のスケーラビリティは、現実世界でのデータ収集に伴う多大なコストと労力によって根本的に制約を受けている。シミュレーションデータはスケーラブルな代替手段を提供するが、視覚的な外観、物理的特性、および物体間の相互作用における大きな隔たりのため、現実世界への一般化にしばしば失敗する。この問題に対処するため、我々はRoboSimGSを提案する。これは、多視点の現実世界画像をスケーラブルで高忠実度かつ物理的にインタラクティブなシミュレーション環境に変換する、新しいReal2Sim2Realフレームワークである。我々のアプローチは、ハイブリッド表現を用いてシーンを再構築する:3D Gaussian Splatting (3DGS) が環境のフォトリアルな外観を捉え、インタラクティブなオブジェクトのためのメッシュプリミティブが正確な物理シミュレーションを保証する。特に、物理的に妥当な関節構造を持つアセットの作成を自動化するために、マルチモーダル大規模言語モデル (MLLM) の使用を先駆的に導入した。MLLMは視覚データを分析し、物体の物理的特性(密度、剛性など)だけでなく、複雑な運動学的構造(ヒンジ、スライドレールなど)も推論する。我々は、RoboSimGSによって生成されたデータのみで訓練されたポリシーが、多様な現実世界の操作タスクにおいて成功裏にゼロショットのシミュレーションから現実への転移を達成することを実証した。さらに、RoboSimGSからのデータは、最先端の手法の性能と一般化能力を大幅に向上させる。我々の結果は、RoboSimGSがシミュレーションと現実の隔たりを埋めるための強力でスケーラブルなソリューションであることを検証する。
English
The scalability of robotic learning is fundamentally bottlenecked by the
significant cost and labor of real-world data collection. While simulated data
offers a scalable alternative, it often fails to generalize to the real world
due to significant gaps in visual appearance, physical properties, and object
interactions. To address this, we propose RoboSimGS, a novel Real2Sim2Real
framework that converts multi-view real-world images into scalable,
high-fidelity, and physically interactive simulation environments for robotic
manipulation. Our approach reconstructs scenes using a hybrid representation:
3D Gaussian Splatting (3DGS) captures the photorealistic appearance of the
environment, while mesh primitives for interactive objects ensure accurate
physics simulation. Crucially, we pioneer the use of a Multi-modal Large
Language Model (MLLM) to automate the creation of physically plausible,
articulated assets. The MLLM analyzes visual data to infer not only physical
properties (e.g., density, stiffness) but also complex kinematic structures
(e.g., hinges, sliding rails) of objects. We demonstrate that policies trained
entirely on data generated by RoboSimGS achieve successful zero-shot
sim-to-real transfer across a diverse set of real-world manipulation tasks.
Furthermore, data from RoboSimGS significantly enhances the performance and
generalization capabilities of SOTA methods. Our results validate RoboSimGS as
a powerful and scalable solution for bridging the sim-to-real gap.