ChatPaper.aiChatPaper

Real2Render2Real: ダイナミクスシミュレーションやロボットハードウェアを必要としないロボットデータのスケーリング

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

May 14, 2025
著者: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI

要旨

ロボット学習のスケーリングには、膨大で多様なデータセットが必要です。しかし、現在主流のデータ収集パラダイムである人間によるテレオペレーションは、コストが高く、手作業や物理的なロボットアクセスに制約されています。本論文では、物体の動力学シミュレーションやロボットハードウェアのテレオペレーションに依存せずに、ロボットのトレーニングデータを生成する新しいアプローチであるReal2Render2Real(R2R2R)を紹介します。入力は、スマートフォンで撮影された1つ以上の物体のスキャンと、人間によるデモンストレーションの単一の動画です。R2R2Rは、詳細な3D物体の形状と外観を再構築し、6自由度の物体の動きを追跡することで、数千の高視覚忠実度のロボット非依存デモンストレーションをレンダリングします。R2R2Rは、3Dガウシアンスプラッティング(3DGS)を使用して、剛体と関節物体の両方に対して柔軟なアセット生成と軌道合成を可能にし、これらの表現をメッシュに変換して、IsaacLabのようなスケーラブルなレンダリングエンジンとの互換性を維持しますが、衝突モデリングはオフにします。R2R2Rによって生成されたロボットデモンストレーションデータは、ロボットの自己受容状態と画像観測に基づいて動作するモデル、例えば視覚-言語-行動モデル(VLA)や模倣学習ポリシーと直接統合されます。物理実験では、単一の人間によるデモンストレーションから生成されたR2R2Rデータでトレーニングされたモデルが、150回の人間によるテレオペレーションデモンストレーションでトレーニングされたモデルの性能に匹敵することが示唆されています。プロジェクトページ: https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing data collection paradigm-human teleoperation-remains costly and constrained by manual effort and physical robot access. We introduce Real2Render2Real (R2R2R), a novel approach for generating robot training data without relying on object dynamics simulation or teleoperation of robot hardware. The input is a smartphone-captured scan of one or more objects and a single video of a human demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic demonstrations by reconstructing detailed 3D object geometry and appearance, and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to enable flexible asset generation and trajectory synthesis for both rigid and articulated objects, converting these representations to meshes to maintain compatibility with scalable rendering engines like IsaacLab but with collision modeling off. Robot demonstration data generated by R2R2R integrates directly with models that operate on robot proprioceptive states and image observations, such as vision-language-action models (VLA) and imitation learning policies. Physical experiments suggest that models trained on R2R2R data from a single human demonstration can match the performance of models trained on 150 human teleoperation demonstrations. Project page: https://real2render2real.com

Summary

AI-Generated Summary

PDF42May 16, 2025