Generazione di Dati Simulati ad Alta Fedeltà per l'Apprendimento della Manipolazione Robotica Zero-Shot nel Mondo Reale con Gaussian Splatting

Abstract

La scalabilità dell'apprendimento robotico è fondamentalmente limitata dal costo significativo e dalla laboriosità della raccolta di dati nel mondo reale. Sebbene i dati simulati offrano un'alternativa scalabile, spesso non riescono a generalizzare al mondo reale a causa di significative discrepanze nell'aspetto visivo, nelle proprietà fisiche e nelle interazioni con gli oggetti. Per affrontare questo problema, proponiamo RoboSimGS, un nuovo framework Real2Sim2Real che converte immagini multi-vista del mondo reale in ambienti di simulazione scalabili, ad alta fedeltà e fisicamente interattivi per la manipolazione robotica. Il nostro approccio ricostruisce le scene utilizzando una rappresentazione ibrida: il 3D Gaussian Splatting (3DGS) cattura l'aspetto fotorealistico dell'ambiente, mentre le primitive mesh per gli oggetti interattivi garantiscono una simulazione fisica accurata. In modo cruciale, siamo i primi a utilizzare un Modello Linguistico Multimodale di Grande Dimensione (MLLM) per automatizzare la creazione di asset articolati e fisicamente plausibili. L'MLLM analizza i dati visivi per dedurre non solo le proprietà fisiche (ad esempio, densità, rigidità) ma anche le strutture cinematiche complesse (ad esempio, cerniere, guide scorrevoli) degli oggetti. Dimostriamo che le politiche addestrate interamente su dati generati da RoboSimGS raggiungono un trasferimento sim-to-real di successo in un'ampia gamma di compiti di manipolazione nel mondo reale. Inoltre, i dati di RoboSimGS migliorano significativamente le prestazioni e le capacità di generalizzazione dei metodi SOTA. I nostri risultati convalidano RoboSimGS come una soluzione potente e scalabile per colmare il divario sim-to-real.

English

The scalability of robotic learning is fundamentally bottlenecked by the significant cost and labor of real-world data collection. While simulated data offers a scalable alternative, it often fails to generalize to the real world due to significant gaps in visual appearance, physical properties, and object interactions. To address this, we propose RoboSimGS, a novel Real2Sim2Real framework that converts multi-view real-world images into scalable, high-fidelity, and physically interactive simulation environments for robotic manipulation. Our approach reconstructs scenes using a hybrid representation: 3D Gaussian Splatting (3DGS) captures the photorealistic appearance of the environment, while mesh primitives for interactive objects ensure accurate physics simulation. Crucially, we pioneer the use of a Multi-modal Large Language Model (MLLM) to automate the creation of physically plausible, articulated assets. The MLLM analyzes visual data to infer not only physical properties (e.g., density, stiffness) but also complex kinematic structures (e.g., hinges, sliding rails) of objects. We demonstrate that policies trained entirely on data generated by RoboSimGS achieve successful zero-shot sim-to-real transfer across a diverse set of real-world manipulation tasks. Furthermore, data from RoboSimGS significantly enhances the performance and generalization capabilities of SOTA methods. Our results validate RoboSimGS as a powerful and scalable solution for bridging the sim-to-real gap.

Generazione di Dati Simulati ad Alta Fedeltà per l'Apprendimento della Manipolazione Robotica Zero-Shot nel Mondo Reale con Gaussian Splatting

High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting

Abstract

Support