가우시안 스플래팅을 활용한 실제 환경 제로샷 로봇 매니퓰레이션 학습을 위한 고품질 시뮬레이션 데이터 생성
High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
October 12, 2025
저자: Haoyu Zhao, Cheng Zeng, Linghao Zhuang, Yaxi Zhao, Shengke Xue, Hao Wang, Xingyue Zhao, Zhongyu Li, Kehan Li, Siteng Huang, Mingxiu Chen, Xin Li, Deli Zhao, Hua Zou
cs.AI
초록
로봇 학습의 확장성은 현실 세계 데이터 수집의 상당한 비용과 노동력에 의해 근본적으로 제한됩니다. 시뮬레이션 데이터는 확장 가능한 대안을 제공하지만, 시각적 외관, 물리적 특성, 그리고 객체 상호작용에서의 상당한 차이로 인해 현실 세계로의 일반화에 실패하는 경우가 많습니다. 이를 해결하기 위해, 우리는 다중 시점 현실 세계 이미지를 확장 가능하고 고충실도이며 물리적으로 상호작용 가능한 시뮬레이션 환경으로 변환하는 새로운 Real2Sim2Real 프레임워크인 RoboSimGS를 제안합니다. 우리의 접근 방식은 하이브리드 표현을 사용하여 장면을 재구성합니다: 3D Gaussian Splatting(3DGS)은 환경의 사실적인 외관을 포착하고, 상호작용 가능한 객체를 위한 메시 프리미티브는 정확한 물리 시뮬레이션을 보장합니다. 특히, 우리는 물리적으로 타당한 관절형 자산의 생성을 자동화하기 위해 다중 모드 대형 언어 모델(MLLM)을 최초로 사용합니다. MLLM은 시각 데이터를 분석하여 물리적 특성(예: 밀도, 강성)뿐만 아니라 객체의 복잡한 운동학적 구조(예: 힌지, 슬라이딩 레일)도 추론합니다. 우리는 RoboSimGS에서 생성된 데이터로 완전히 훈련된 정책이 다양한 현실 세계 조작 작업에서 성공적인 제로샷 시뮬레이션-투-리얼 전이를 달성함을 보여줍니다. 또한, RoboSimGS의 데이터는 최신 기술(SOTA) 방법의 성능과 일반화 능력을 크게 향상시킵니다. 우리의 결과는 RoboSimGS가 시뮬레이션-투-리얼 간극을 해결하는 강력하고 확장 가능한 솔루션임을 입증합니다.
English
The scalability of robotic learning is fundamentally bottlenecked by the
significant cost and labor of real-world data collection. While simulated data
offers a scalable alternative, it often fails to generalize to the real world
due to significant gaps in visual appearance, physical properties, and object
interactions. To address this, we propose RoboSimGS, a novel Real2Sim2Real
framework that converts multi-view real-world images into scalable,
high-fidelity, and physically interactive simulation environments for robotic
manipulation. Our approach reconstructs scenes using a hybrid representation:
3D Gaussian Splatting (3DGS) captures the photorealistic appearance of the
environment, while mesh primitives for interactive objects ensure accurate
physics simulation. Crucially, we pioneer the use of a Multi-modal Large
Language Model (MLLM) to automate the creation of physically plausible,
articulated assets. The MLLM analyzes visual data to infer not only physical
properties (e.g., density, stiffness) but also complex kinematic structures
(e.g., hinges, sliding rails) of objects. We demonstrate that policies trained
entirely on data generated by RoboSimGS achieve successful zero-shot
sim-to-real transfer across a diverse set of real-world manipulation tasks.
Furthermore, data from RoboSimGS significantly enhances the performance and
generalization capabilities of SOTA methods. Our results validate RoboSimGS as
a powerful and scalable solution for bridging the sim-to-real gap.