Real2Render2Real: Escalando Datos Robóticos Sin Simulación de Dinámica ni Hardware Robótico

Resumen

La escalabilidad del aprendizaje en robótica requiere conjuntos de datos extensos y diversos. Sin embargo, el paradigma predominante de recopilación de datos—la teleoperación humana—sigue siendo costoso y está limitado por el esfuerzo manual y el acceso físico a los robots. Presentamos Real2Render2Real (R2R2R), un enfoque novedoso para generar datos de entrenamiento robótico sin depender de la simulación de dinámicas de objetos o la teleoperación de hardware robótico. La entrada consiste en un escaneo capturado con un teléfono inteligente de uno o más objetos y un único video de una demostración humana. R2R2R genera miles de demostraciones de alta fidelidad visual independientes del robot, reconstruyendo la geometría y apariencia detallada en 3D de los objetos y rastreando su movimiento en 6 grados de libertad (6-DoF). R2R2R utiliza 3D Gaussian Splatting (3DGS) para permitir la generación flexible de activos y la síntesis de trayectorias tanto para objetos rígidos como articulados, convirtiendo estas representaciones en mallas para mantener la compatibilidad con motores de renderizado escalables como IsaacLab, pero sin modelado de colisiones. Los datos de demostración robótica generados por R2R2R se integran directamente con modelos que operan en estados propioceptivos del robot y observaciones de imágenes, como los modelos de visión-lenguaje-acción (VLA) y las políticas de aprendizaje por imitación. Experimentos físicos sugieren que los modelos entrenados con datos de R2R2R a partir de una única demostración humana pueden igualar el rendimiento de los modelos entrenados con 150 demostraciones de teleoperación humana. Página del proyecto: https://real2render2real.com

English

Scaling robot learning requires vast and diverse datasets. Yet the prevailing data collection paradigm-human teleoperation-remains costly and constrained by manual effort and physical robot access. We introduce Real2Render2Real (R2R2R), a novel approach for generating robot training data without relying on object dynamics simulation or teleoperation of robot hardware. The input is a smartphone-captured scan of one or more objects and a single video of a human demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic demonstrations by reconstructing detailed 3D object geometry and appearance, and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to enable flexible asset generation and trajectory synthesis for both rigid and articulated objects, converting these representations to meshes to maintain compatibility with scalable rendering engines like IsaacLab but with collision modeling off. Robot demonstration data generated by R2R2R integrates directly with models that operate on robot proprioceptive states and image observations, such as vision-language-action models (VLA) and imitation learning policies. Physical experiments suggest that models trained on R2R2R data from a single human demonstration can match the performance of models trained on 150 human teleoperation demonstrations. Project page: https://real2render2real.com

Real2Render2Real: Escalando Datos Robóticos Sin Simulación de Dinámica ni Hardware Robótico

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

Resumen

Support