Real2Render2Real: 동역학 시뮬레이션이나 로봇 하드웨어 없이 로봇 데이터 확장하기
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
May 14, 2025
저자: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI
초록
로봇 학습의 확장에는 방대하고 다양한 데이터셋이 필요합니다. 그러나 현재의 데이터 수집 패러다임인 인간 원격 조작은 비용이 많이 들고 수동 작업 및 물리적 로봇 접근에 의해 제약을 받습니다. 우리는 물체 역학 시뮬레이션이나 로봇 하드웨어의 원격 조작에 의존하지 않고 로봇 훈련 데이터를 생성하는 새로운 접근법인 Real2Render2Real(R2R2R)을 소개합니다. 입력은 스마트폰으로 촬영된 하나 이상의 물체 스캔과 인간 시연의 단일 비디오입니다. R2R2R은 상세한 3D 물체 기하학과 외관을 재구성하고 6자유도 물체 운동을 추적하여 수천 개의 높은 시각적 충실도를 가진 로봇-불가지론적 시연을 렌더링합니다. R2R2R은 3D 가우시안 스플래팅(3DGS)을 사용하여 강체 및 관절 물체 모두에 대해 유연한 자산 생성 및 궤적 합성을 가능하게 하고, 이러한 표현을 메시로 변환하여 IsaacLab과 같은 확장 가능한 렌더링 엔진과의 호환성을 유지하지만 충돌 모델링은 비활성화합니다. R2R2R에 의해 생성된 로봇 시연 데이터는 로봇의 자체 감각 상태와 이미지 관찰에서 작동하는 모델, 예를 들어 시각-언어-행동 모델(VLA) 및 모방 학습 정책과 직접 통합됩니다. 물리적 실험 결과, 단일 인간 시연에서 생성된 R2R2R 데이터로 훈련된 모델이 150개의 인간 원격 조작 시연으로 훈련된 모델의 성능과 일치할 수 있음을 시사합니다. 프로젝트 페이지: https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing
data collection paradigm-human teleoperation-remains costly and constrained by
manual effort and physical robot access. We introduce Real2Render2Real (R2R2R),
a novel approach for generating robot training data without relying on object
dynamics simulation or teleoperation of robot hardware. The input is a
smartphone-captured scan of one or more objects and a single video of a human
demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic
demonstrations by reconstructing detailed 3D object geometry and appearance,
and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to
enable flexible asset generation and trajectory synthesis for both rigid and
articulated objects, converting these representations to meshes to maintain
compatibility with scalable rendering engines like IsaacLab but with collision
modeling off. Robot demonstration data generated by R2R2R integrates directly
with models that operate on robot proprioceptive states and image observations,
such as vision-language-action models (VLA) and imitation learning policies.
Physical experiments suggest that models trained on R2R2R data from a single
human demonstration can match the performance of models trained on 150 human
teleoperation demonstrations. Project page: https://real2render2real.comSummary
AI-Generated Summary