Génération de données simulées haute fidélité pour l'apprentissage de la manipulation robotique en contexte réel avec zéro échantillon utilisant le lissage gaussien
High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
October 12, 2025
papers.authors: Haoyu Zhao, Cheng Zeng, Linghao Zhuang, Yaxi Zhao, Shengke Xue, Hao Wang, Xingyue Zhao, Zhongyu Li, Kehan Li, Siteng Huang, Mingxiu Chen, Xin Li, Deli Zhao, Hua Zou
cs.AI
papers.abstract
L'évolutivité de l'apprentissage robotique est fondamentalement limitée par le coût et la main-d'œuvre importants associés à la collecte de données dans le monde réel. Bien que les données simulées offrent une alternative évolutive, elles échouent souvent à généraliser au monde réel en raison d'écarts significatifs dans l'apparence visuelle, les propriétés physiques et les interactions entre objets. Pour résoudre ce problème, nous proposons RoboSimGS, un nouveau cadre Real2Sim2Real qui transforme des images multi-vues du monde réel en environnements de simulation évolutifs, à haute fidélité et physiquement interactifs pour la manipulation robotique. Notre approche reconstruit les scènes en utilisant une représentation hybride : le 3D Gaussian Splatting (3DGS) capture l'apparence photoréaliste de l'environnement, tandis que les primitives de maillage pour les objets interactifs garantissent une simulation physique précise. De manière cruciale, nous innovons en utilisant un modèle de langage multi-modal de grande taille (MLLM) pour automatiser la création d'actifs articulés physiquement plausibles. Le MLLM analyse les données visuelles pour inférer non seulement les propriétés physiques (par exemple, densité, rigidité) mais aussi les structures cinématiques complexes (par exemple, charnières, rails coulissants) des objets. Nous démontrons que les politiques entraînées entièrement sur des données générées par RoboSimGS réussissent un transfert zéro-shot sim-to-real à travers un ensemble diversifié de tâches de manipulation dans le monde réel. De plus, les données de RoboSimGS améliorent significativement les performances et les capacités de généralisation des méthodes SOTA. Nos résultats valident RoboSimGS comme une solution puissante et évolutive pour combler l'écart sim-to-real.
English
The scalability of robotic learning is fundamentally bottlenecked by the
significant cost and labor of real-world data collection. While simulated data
offers a scalable alternative, it often fails to generalize to the real world
due to significant gaps in visual appearance, physical properties, and object
interactions. To address this, we propose RoboSimGS, a novel Real2Sim2Real
framework that converts multi-view real-world images into scalable,
high-fidelity, and physically interactive simulation environments for robotic
manipulation. Our approach reconstructs scenes using a hybrid representation:
3D Gaussian Splatting (3DGS) captures the photorealistic appearance of the
environment, while mesh primitives for interactive objects ensure accurate
physics simulation. Crucially, we pioneer the use of a Multi-modal Large
Language Model (MLLM) to automate the creation of physically plausible,
articulated assets. The MLLM analyzes visual data to infer not only physical
properties (e.g., density, stiffness) but also complex kinematic structures
(e.g., hinges, sliding rails) of objects. We demonstrate that policies trained
entirely on data generated by RoboSimGS achieve successful zero-shot
sim-to-real transfer across a diverse set of real-world manipulation tasks.
Furthermore, data from RoboSimGS significantly enhances the performance and
generalization capabilities of SOTA methods. Our results validate RoboSimGS as
a powerful and scalable solution for bridging the sim-to-real gap.