ChatPaper.aiChatPaper

ガウススプラッティングを用いた実世界ゼロショットロボット操作学習のための高忠実度シミュレーションデータ生成

High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting

October 12, 2025
著者: Haoyu Zhao, Cheng Zeng, Linghao Zhuang, Yaxi Zhao, Shengke Xue, Hao Wang, Xingyue Zhao, Zhongyu Li, Kehan Li, Siteng Huang, Mingxiu Chen, Xin Li, Deli Zhao, Hua Zou
cs.AI

要旨

ロボット学習のスケーラビリティは、現実世界でのデータ収集に伴う多大なコストと労力によって根本的に制約を受けている。シミュレーションデータはスケーラブルな代替手段を提供するが、視覚的な外観、物理的特性、および物体間の相互作用における大きな隔たりのため、現実世界への一般化にしばしば失敗する。この問題に対処するため、我々はRoboSimGSを提案する。これは、多視点の現実世界画像をスケーラブルで高忠実度かつ物理的にインタラクティブなシミュレーション環境に変換する、新しいReal2Sim2Realフレームワークである。我々のアプローチは、ハイブリッド表現を用いてシーンを再構築する:3D Gaussian Splatting (3DGS) が環境のフォトリアルな外観を捉え、インタラクティブなオブジェクトのためのメッシュプリミティブが正確な物理シミュレーションを保証する。特に、物理的に妥当な関節構造を持つアセットの作成を自動化するために、マルチモーダル大規模言語モデル (MLLM) の使用を先駆的に導入した。MLLMは視覚データを分析し、物体の物理的特性(密度、剛性など)だけでなく、複雑な運動学的構造(ヒンジ、スライドレールなど)も推論する。我々は、RoboSimGSによって生成されたデータのみで訓練されたポリシーが、多様な現実世界の操作タスクにおいて成功裏にゼロショットのシミュレーションから現実への転移を達成することを実証した。さらに、RoboSimGSからのデータは、最先端の手法の性能と一般化能力を大幅に向上させる。我々の結果は、RoboSimGSがシミュレーションと現実の隔たりを埋めるための強力でスケーラブルなソリューションであることを検証する。
English
The scalability of robotic learning is fundamentally bottlenecked by the significant cost and labor of real-world data collection. While simulated data offers a scalable alternative, it often fails to generalize to the real world due to significant gaps in visual appearance, physical properties, and object interactions. To address this, we propose RoboSimGS, a novel Real2Sim2Real framework that converts multi-view real-world images into scalable, high-fidelity, and physically interactive simulation environments for robotic manipulation. Our approach reconstructs scenes using a hybrid representation: 3D Gaussian Splatting (3DGS) captures the photorealistic appearance of the environment, while mesh primitives for interactive objects ensure accurate physics simulation. Crucially, we pioneer the use of a Multi-modal Large Language Model (MLLM) to automate the creation of physically plausible, articulated assets. The MLLM analyzes visual data to infer not only physical properties (e.g., density, stiffness) but also complex kinematic structures (e.g., hinges, sliding rails) of objects. We demonstrate that policies trained entirely on data generated by RoboSimGS achieve successful zero-shot sim-to-real transfer across a diverse set of real-world manipulation tasks. Furthermore, data from RoboSimGS significantly enhances the performance and generalization capabilities of SOTA methods. Our results validate RoboSimGS as a powerful and scalable solution for bridging the sim-to-real gap.
PDF112October 14, 2025