Real2Render2Real: Escalando Datos Robóticos Sin Simulación de Dinámica ni Hardware Robótico
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
May 14, 2025
Autores: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI
Resumen
La escalabilidad del aprendizaje en robótica requiere conjuntos de datos extensos y diversos. Sin embargo, el paradigma predominante de recopilación de datos—la teleoperación humana—sigue siendo costoso y está limitado por el esfuerzo manual y el acceso físico a los robots. Presentamos Real2Render2Real (R2R2R), un enfoque novedoso para generar datos de entrenamiento robótico sin depender de la simulación de dinámicas de objetos o la teleoperación de hardware robótico. La entrada consiste en un escaneo capturado con un teléfono inteligente de uno o más objetos y un único video de una demostración humana. R2R2R genera miles de demostraciones de alta fidelidad visual independientes del robot, reconstruyendo la geometría y apariencia detallada en 3D de los objetos y rastreando su movimiento en 6 grados de libertad (6-DoF). R2R2R utiliza 3D Gaussian Splatting (3DGS) para permitir la generación flexible de activos y la síntesis de trayectorias tanto para objetos rígidos como articulados, convirtiendo estas representaciones en mallas para mantener la compatibilidad con motores de renderizado escalables como IsaacLab, pero sin modelado de colisiones. Los datos de demostración robótica generados por R2R2R se integran directamente con modelos que operan en estados propioceptivos del robot y observaciones de imágenes, como los modelos de visión-lenguaje-acción (VLA) y las políticas de aprendizaje por imitación. Experimentos físicos sugieren que los modelos entrenados con datos de R2R2R a partir de una única demostración humana pueden igualar el rendimiento de los modelos entrenados con 150 demostraciones de teleoperación humana. Página del proyecto: https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing
data collection paradigm-human teleoperation-remains costly and constrained by
manual effort and physical robot access. We introduce Real2Render2Real (R2R2R),
a novel approach for generating robot training data without relying on object
dynamics simulation or teleoperation of robot hardware. The input is a
smartphone-captured scan of one or more objects and a single video of a human
demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic
demonstrations by reconstructing detailed 3D object geometry and appearance,
and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to
enable flexible asset generation and trajectory synthesis for both rigid and
articulated objects, converting these representations to meshes to maintain
compatibility with scalable rendering engines like IsaacLab but with collision
modeling off. Robot demonstration data generated by R2R2R integrates directly
with models that operate on robot proprioceptive states and image observations,
such as vision-language-action models (VLA) and imitation learning policies.
Physical experiments suggest that models trained on R2R2R data from a single
human demonstration can match the performance of models trained on 150 human
teleoperation demonstrations. Project page: https://real2render2real.comSummary
AI-Generated Summary