Generazione di Dati Simulati ad Alta Fedeltà per l'Apprendimento della Manipolazione Robotica Zero-Shot nel Mondo Reale con Gaussian Splatting
High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
October 12, 2025
Autori: Haoyu Zhao, Cheng Zeng, Linghao Zhuang, Yaxi Zhao, Shengke Xue, Hao Wang, Xingyue Zhao, Zhongyu Li, Kehan Li, Siteng Huang, Mingxiu Chen, Xin Li, Deli Zhao, Hua Zou
cs.AI
Abstract
La scalabilità dell'apprendimento robotico è fondamentalmente limitata dal costo significativo e dalla laboriosità della raccolta di dati nel mondo reale. Sebbene i dati simulati offrano un'alternativa scalabile, spesso non riescono a generalizzare al mondo reale a causa di significative discrepanze nell'aspetto visivo, nelle proprietà fisiche e nelle interazioni con gli oggetti. Per affrontare questo problema, proponiamo RoboSimGS, un nuovo framework Real2Sim2Real che converte immagini multi-vista del mondo reale in ambienti di simulazione scalabili, ad alta fedeltà e fisicamente interattivi per la manipolazione robotica. Il nostro approccio ricostruisce le scene utilizzando una rappresentazione ibrida: il 3D Gaussian Splatting (3DGS) cattura l'aspetto fotorealistico dell'ambiente, mentre le primitive mesh per gli oggetti interattivi garantiscono una simulazione fisica accurata. In modo cruciale, siamo i primi a utilizzare un Modello Linguistico Multimodale di Grande Dimensione (MLLM) per automatizzare la creazione di asset articolati e fisicamente plausibili. L'MLLM analizza i dati visivi per dedurre non solo le proprietà fisiche (ad esempio, densità, rigidità) ma anche le strutture cinematiche complesse (ad esempio, cerniere, guide scorrevoli) degli oggetti. Dimostriamo che le politiche addestrate interamente su dati generati da RoboSimGS raggiungono un trasferimento sim-to-real di successo in un'ampia gamma di compiti di manipolazione nel mondo reale. Inoltre, i dati di RoboSimGS migliorano significativamente le prestazioni e le capacità di generalizzazione dei metodi SOTA. I nostri risultati convalidano RoboSimGS come una soluzione potente e scalabile per colmare il divario sim-to-real.
English
The scalability of robotic learning is fundamentally bottlenecked by the
significant cost and labor of real-world data collection. While simulated data
offers a scalable alternative, it often fails to generalize to the real world
due to significant gaps in visual appearance, physical properties, and object
interactions. To address this, we propose RoboSimGS, a novel Real2Sim2Real
framework that converts multi-view real-world images into scalable,
high-fidelity, and physically interactive simulation environments for robotic
manipulation. Our approach reconstructs scenes using a hybrid representation:
3D Gaussian Splatting (3DGS) captures the photorealistic appearance of the
environment, while mesh primitives for interactive objects ensure accurate
physics simulation. Crucially, we pioneer the use of a Multi-modal Large
Language Model (MLLM) to automate the creation of physically plausible,
articulated assets. The MLLM analyzes visual data to infer not only physical
properties (e.g., density, stiffness) but also complex kinematic structures
(e.g., hinges, sliding rails) of objects. We demonstrate that policies trained
entirely on data generated by RoboSimGS achieve successful zero-shot
sim-to-real transfer across a diverse set of real-world manipulation tasks.
Furthermore, data from RoboSimGS significantly enhances the performance and
generalization capabilities of SOTA methods. Our results validate RoboSimGS as
a powerful and scalable solution for bridging the sim-to-real gap.