Real2Render2Real: Escalonando Dados Robóticos Sem Simulação de Dinâmica ou Hardware Robótico
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
May 14, 2025
Autores: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI
Resumo
A escalabilidade do aprendizado de robôs requer conjuntos de dados vastos e diversos. No entanto, o paradigma predominante de coleta de dados - teleoperação humana - continua sendo caro e limitado pelo esforço manual e pelo acesso físico ao robô. Apresentamos o Real2Render2Real (R2R2R), uma abordagem inovadora para gerar dados de treinamento para robôs sem depender de simulações de dinâmica de objetos ou teleoperação de hardware robótico. A entrada consiste em uma varredura capturada por smartphone de um ou mais objetos e um único vídeo de uma demonstração humana. O R2R2R renderiza milhares de demonstrações de alta fidelidade visual, independentes do robô, reconstruindo a geometria 3D detalhada e a aparência dos objetos, além de rastrear o movimento dos objetos em 6 graus de liberdade (6-DoF). O R2R2R utiliza o 3D Gaussian Splatting (3DGS) para permitir a geração flexível de ativos e a síntese de trajetórias tanto para objetos rígidos quanto articulados, convertendo essas representações em malhas para manter a compatibilidade com motores de renderização escaláveis, como o IsaacLab, mas com a modelagem de colisão desativada. Os dados de demonstração robótica gerados pelo R2R2R integram-se diretamente com modelos que operam em estados proprioceptivos do robô e observações de imagem, como modelos visão-linguagem-ação (VLA) e políticas de aprendizado por imitação. Experimentos físicos sugerem que modelos treinados com dados do R2R2R a partir de uma única demonstração humana podem igualar o desempenho de modelos treinados com 150 demonstrações de teleoperação humana. Página do projeto: https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing
data collection paradigm-human teleoperation-remains costly and constrained by
manual effort and physical robot access. We introduce Real2Render2Real (R2R2R),
a novel approach for generating robot training data without relying on object
dynamics simulation or teleoperation of robot hardware. The input is a
smartphone-captured scan of one or more objects and a single video of a human
demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic
demonstrations by reconstructing detailed 3D object geometry and appearance,
and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to
enable flexible asset generation and trajectory synthesis for both rigid and
articulated objects, converting these representations to meshes to maintain
compatibility with scalable rendering engines like IsaacLab but with collision
modeling off. Robot demonstration data generated by R2R2R integrates directly
with models that operate on robot proprioceptive states and image observations,
such as vision-language-action models (VLA) and imitation learning policies.
Physical experiments suggest that models trained on R2R2R data from a single
human demonstration can match the performance of models trained on 150 human
teleoperation demonstrations. Project page: https://real2render2real.com