Real2Render2Real : Mise à l'échelle des données robotiques sans simulation dynamique ni matériel robotique
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
May 14, 2025
Auteurs: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI
Résumé
La mise à l'échelle de l'apprentissage robotique nécessite des ensembles de données vastes et diversifiés. Cependant, le paradigme dominant de collecte de données – la téléopération humaine – reste coûteux et limité par l'effort manuel et l'accès physique aux robots. Nous présentons Real2Render2Real (R2R2R), une approche novatrice pour générer des données d'entraînement robotique sans recourir à la simulation de la dynamique des objets ou à la téléopération de matériel robotique. L'entrée consiste en une numérisation capturée par smartphone d'un ou plusieurs objets et une seule vidéo d'une démonstration humaine. R2R2R génère des milliers de démonstrations à haute fidélité visuelle, indépendantes du robot, en reconstruisant la géométrie 3D détaillée et l'apparence des objets, et en suivant le mouvement des objets à 6 degrés de liberté (6-DoF). R2R2R utilise le *3D Gaussian Splatting* (3DGS) pour permettre une génération flexible d'assets et une synthèse de trajectoires pour les objets rigides et articulés, convertissant ces représentations en maillages pour maintenir la compatibilité avec des moteurs de rendu évolutifs comme IsaacLab, mais sans modélisation de collision. Les données de démonstration robotique générées par R2R2R s'intègrent directement avec des modèles qui opèrent sur les états proprioceptifs du robot et les observations visuelles, tels que les modèles vision-langue-action (VLA) et les politiques d'apprentissage par imitation. Les expériences physiques suggèrent que les modèles entraînés sur des données R2R2R issues d'une seule démonstration humaine peuvent égaler les performances des modèles entraînés sur 150 démonstrations de téléopération humaine. Page du projet : https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing
data collection paradigm-human teleoperation-remains costly and constrained by
manual effort and physical robot access. We introduce Real2Render2Real (R2R2R),
a novel approach for generating robot training data without relying on object
dynamics simulation or teleoperation of robot hardware. The input is a
smartphone-captured scan of one or more objects and a single video of a human
demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic
demonstrations by reconstructing detailed 3D object geometry and appearance,
and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to
enable flexible asset generation and trajectory synthesis for both rigid and
articulated objects, converting these representations to meshes to maintain
compatibility with scalable rendering engines like IsaacLab but with collision
modeling off. Robot demonstration data generated by R2R2R integrates directly
with models that operate on robot proprioceptive states and image observations,
such as vision-language-action models (VLA) and imitation learning policies.
Physical experiments suggest that models trained on R2R2R data from a single
human demonstration can match the performance of models trained on 150 human
teleoperation demonstrations. Project page: https://real2render2real.comSummary
AI-Generated Summary