Real2Render2Real: Escalonando Dados Robóticos Sem Simulação de Dinâmica ou Hardware Robótico

Resumo

A escalabilidade do aprendizado de robôs requer conjuntos de dados vastos e diversos. No entanto, o paradigma predominante de coleta de dados - teleoperação humana - continua sendo caro e limitado pelo esforço manual e pelo acesso físico ao robô. Apresentamos o Real2Render2Real (R2R2R), uma abordagem inovadora para gerar dados de treinamento para robôs sem depender de simulações de dinâmica de objetos ou teleoperação de hardware robótico. A entrada consiste em uma varredura capturada por smartphone de um ou mais objetos e um único vídeo de uma demonstração humana. O R2R2R renderiza milhares de demonstrações de alta fidelidade visual, independentes do robô, reconstruindo a geometria 3D detalhada e a aparência dos objetos, além de rastrear o movimento dos objetos em 6 graus de liberdade (6-DoF). O R2R2R utiliza o 3D Gaussian Splatting (3DGS) para permitir a geração flexível de ativos e a síntese de trajetórias tanto para objetos rígidos quanto articulados, convertendo essas representações em malhas para manter a compatibilidade com motores de renderização escaláveis, como o IsaacLab, mas com a modelagem de colisão desativada. Os dados de demonstração robótica gerados pelo R2R2R integram-se diretamente com modelos que operam em estados proprioceptivos do robô e observações de imagem, como modelos visão-linguagem-ação (VLA) e políticas de aprendizado por imitação. Experimentos físicos sugerem que modelos treinados com dados do R2R2R a partir de uma única demonstração humana podem igualar o desempenho de modelos treinados com 150 demonstrações de teleoperação humana. Página do projeto: https://real2render2real.com

English

Scaling robot learning requires vast and diverse datasets. Yet the prevailing data collection paradigm-human teleoperation-remains costly and constrained by manual effort and physical robot access. We introduce Real2Render2Real (R2R2R), a novel approach for generating robot training data without relying on object dynamics simulation or teleoperation of robot hardware. The input is a smartphone-captured scan of one or more objects and a single video of a human demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic demonstrations by reconstructing detailed 3D object geometry and appearance, and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to enable flexible asset generation and trajectory synthesis for both rigid and articulated objects, converting these representations to meshes to maintain compatibility with scalable rendering engines like IsaacLab but with collision modeling off. Robot demonstration data generated by R2R2R integrates directly with models that operate on robot proprioceptive states and image observations, such as vision-language-action models (VLA) and imitation learning policies. Physical experiments suggest that models trained on R2R2R data from a single human demonstration can match the performance of models trained on 150 human teleoperation demonstrations. Project page: https://real2render2real.com

Real2Render2Real: Escalonando Dados Robóticos Sem Simulação de Dinâmica ou Hardware Robótico

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

Resumo

Support