Real2Render2Real: Skalierung von Roboterdaten ohne Dynamiksimulation oder Roboterhardware
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
May 14, 2025
Autoren: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI
Zusammenfassung
Die Skalierung des Robotik-Lernens erfordert umfangreiche und vielfältige Datensätze. Dennoch bleibt das vorherrschende Paradigma der Datenerfassung – die menschliche Teleoperation – kostspielig und durch manuellen Aufwand sowie den physischen Zugang zu Robotern eingeschränkt. Wir stellen Real2Render2Real (R2R2R) vor, einen neuartigen Ansatz zur Generierung von Trainingsdaten für Roboter, der weder auf die Simulation von Objektdynamiken noch auf die Teleoperation von Roboterhardware angewiesen ist. Die Eingabe besteht aus einem mit einem Smartphone erstellten Scan eines oder mehrerer Objekte und einem einzelnen Video einer menschlichen Demonstration. R2R2R rendert Tausende von visuell hochwertigen, roboterunabhängigen Demonstrationen, indem es detaillierte 3D-Objektgeometrie und -erscheinung rekonstruiert und die 6-DoF-Objektbewegung verfolgt. R2R2R verwendet 3D Gaussian Splatting (3DGS), um flexible Asset-Generierung und Trajektoriensynthese sowohl für starre als auch für artikulierte Objekte zu ermöglichen, und konvertiert diese Darstellungen in Meshes, um die Kompatibilität mit skalierbaren Rendering-Engines wie IsaacLab zu gewährleisten, jedoch ohne Kollisionsmodellierung. Die von R2R2R generierten Roboterdemonstrationsdaten lassen sich direkt in Modelle integrieren, die auf robotereigenen Zuständen und Bildbeobachtungen operieren, wie z. B. Vision-Language-Action-Modelle (VLA) und Imitationslernstrategien. Physikalische Experimente deuten darauf hin, dass Modelle, die mit R2R2R-Daten aus einer einzigen menschlichen Demonstration trainiert wurden, die Leistung von Modellen erreichen können, die mit 150 menschlichen Teleoperationsdemonstrationen trainiert wurden. Projektseite: https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing
data collection paradigm-human teleoperation-remains costly and constrained by
manual effort and physical robot access. We introduce Real2Render2Real (R2R2R),
a novel approach for generating robot training data without relying on object
dynamics simulation or teleoperation of robot hardware. The input is a
smartphone-captured scan of one or more objects and a single video of a human
demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic
demonstrations by reconstructing detailed 3D object geometry and appearance,
and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to
enable flexible asset generation and trajectory synthesis for both rigid and
articulated objects, converting these representations to meshes to maintain
compatibility with scalable rendering engines like IsaacLab but with collision
modeling off. Robot demonstration data generated by R2R2R integrates directly
with models that operate on robot proprioceptive states and image observations,
such as vision-language-action models (VLA) and imitation learning policies.
Physical experiments suggest that models trained on R2R2R data from a single
human demonstration can match the performance of models trained on 150 human
teleoperation demonstrations. Project page: https://real2render2real.comSummary
AI-Generated Summary