물리적 장면 스플래팅: 불완전한 로봇 데이터에서의 종단간 실시간-시뮬레이션 변환
Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data
June 4, 2025
저자: Ben Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever
cs.AI
초록
실제 로봇 동작으로부터 정확한 물리 시뮬레이션을 직접 생성하는 것은 안전하고 확장 가능하며 경제적인 로봇 학습에 큰 가치를 지니지만, 여전히 매우 어려운 과제로 남아 있습니다. 실제 로봇 데이터는 가려짐, 노이즈가 있는 카메라 포즈, 동적 장면 요소 등으로 인해 보이지 않는 물체의 기하학적으로 정확하고 사실적인 디지털 트윈을 생성하는 데 방해가 됩니다. 우리는 이러한 모든 문제를 한 번에 해결하는 새로운 실사-시뮬레이션 프레임워크를 소개합니다. 우리의 핵심 통찰은 3D 가우시안 스플래팅의 사실적 렌더링과 물리 시뮬레이션에 적합한 명시적 객체 메쉬를 단일 표현으로 통합한 하이브리드 장면 표현입니다. 우리는 MuJoCo 내에서 미분 가능한 렌더링과 미분 가능한 물리를 활용하여 원시적이고 부정확한 로봇 궤적에서 직접 객체 기하학 및 외관부터 로봇 포즈와 물리적 파라미터까지 모든 장면 구성 요소를 공동으로 개선하는 종단 간 최적화 파이프라인을 제안합니다. 이 통합 최적화를 통해 우리는 고해상도 객체 메쉬 재구성, 사실적인 새로운 뷰 생성, 그리고 주석 없이 로봇 포즈 보정을 동시에 달성할 수 있습니다. 우리는 ALOHA 2 양손 조작기를 사용하여 시뮬레이션과 도전적인 실제 시퀀스에서 우리의 접근 방식의 효과를 입증하며, 더 실용적이고 견고한 실사-시뮬레이션 파이프라인을 가능하게 합니다.
English
Creating accurate, physical simulations directly from real-world robot motion
holds great value for safe, scalable, and affordable robot learning, yet
remains exceptionally challenging. Real robot data suffers from occlusions,
noisy camera poses, dynamic scene elements, which hinder the creation of
geometrically accurate and photorealistic digital twins of unseen objects. We
introduce a novel real-to-sim framework tackling all these challenges at once.
Our key insight is a hybrid scene representation merging the photorealistic
rendering of 3D Gaussian Splatting with explicit object meshes suitable for
physics simulation within a single representation. We propose an end-to-end
optimization pipeline that leverages differentiable rendering and
differentiable physics within MuJoCo to jointly refine all scene components -
from object geometry and appearance to robot poses and physical parameters -
directly from raw and imprecise robot trajectories. This unified optimization
allows us to simultaneously achieve high-fidelity object mesh reconstruction,
generate photorealistic novel views, and perform annotation-free robot pose
calibration. We demonstrate the effectiveness of our approach both in
simulation and on challenging real-world sequences using an ALOHA 2 bi-manual
manipulator, enabling more practical and robust real-to-simulation pipelines.