ChatPaper.aiChatPaper

Real2Render2Real: Scalabilità dei Dati Robotici Senza Simulazione Dinamica o Hardware Robotico

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

May 14, 2025
Autori: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI

Abstract

Il ridimensionamento dell'apprendimento robotico richiede dataset vasti e diversificati. Tuttavia, il paradigma prevalente di raccolta dati - la teleoperazione umana - rimane costoso e limitato dallo sforzo manuale e dall'accesso fisico ai robot. Introduciamo Real2Render2Real (R2R2R), un approccio innovativo per generare dati di addestramento robotico senza fare affidamento sulla simulazione della dinamica degli oggetti o sulla teleoperazione dell'hardware robotico. L'input è una scansione catturata con uno smartphone di uno o più oggetti e un singolo video di una dimostrazione umana. R2R2R genera migliaia di dimostrazioni ad alta fedeltà visiva indipendenti dal robot, ricostruendo la geometria e l'aspetto dettagliati degli oggetti in 3D e tracciando il movimento degli oggetti a 6 gradi di libertà (6-DoF). R2R2R utilizza il 3D Gaussian Splatting (3DGS) per consentire la generazione flessibile di asset e la sintesi di traiettorie sia per oggetti rigidi che articolati, convertendo queste rappresentazioni in mesh per mantenere la compatibilità con motori di rendering scalabili come IsaacLab, ma con la modellazione delle collisioni disattivata. I dati di dimostrazione robotica generati da R2R2R si integrano direttamente con modelli che operano sugli stati propriocettivi del robot e sulle osservazioni delle immagini, come i modelli visione-linguaggio-azione (VLA) e le politiche di apprendimento per imitazione. Esperimenti fisici suggeriscono che i modelli addestrati su dati R2R2R derivanti da una singola dimostrazione umana possono eguagliare le prestazioni di modelli addestrati su 150 dimostrazioni di teleoperazione umana. Pagina del progetto: https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing data collection paradigm-human teleoperation-remains costly and constrained by manual effort and physical robot access. We introduce Real2Render2Real (R2R2R), a novel approach for generating robot training data without relying on object dynamics simulation or teleoperation of robot hardware. The input is a smartphone-captured scan of one or more objects and a single video of a human demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic demonstrations by reconstructing detailed 3D object geometry and appearance, and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to enable flexible asset generation and trajectory synthesis for both rigid and articulated objects, converting these representations to meshes to maintain compatibility with scalable rendering engines like IsaacLab but with collision modeling off. Robot demonstration data generated by R2R2R integrates directly with models that operate on robot proprioceptive states and image observations, such as vision-language-action models (VLA) and imitation learning policies. Physical experiments suggest that models trained on R2R2R data from a single human demonstration can match the performance of models trained on 150 human teleoperation demonstrations. Project page: https://real2render2real.com
PDF52May 16, 2025