Real2Edit2Real: Gerando Demonstrações Robóticas por meio de uma Interface de Controle 3D

Resumo

Os recentes avanços na aprendizagem de robôs têm sido impulsionados por conjuntos de dados em larga escala e arquiteturas de políticas visuomotoras poderosas. No entanto, a robustez das políticas continua limitada pelo custo substancial da recolha de demonstrações diversificadas, particularmente para a generalização espacial em tarefas de manipulação. Para reduzir a recolha repetitiva de dados, apresentamos o Real2Edit2Real, uma estrutura que gera novas demonstrações ao unir a editabilidade 3D com dados visuais 2D através de uma interface de controlo 3D. A nossa abordagem reconstrói primeiro a geometria da cena a partir de observações RGB multi-vista com um modelo de reconstrução 3D em escala métrica. Com base na geometria reconstruída, realizamos edição 3D confiável em profundidade em nuvens de pontos para gerar novas trajetórias de manipulação, corrigindo geometricamente as poses do robô para recuperar uma profundidade fisicamente consistente, que serve como condição confiável para sintetizar novas demonstrações. Finalmente, propomos um modelo de geração de vídeo multi-condicional guiado pela profundidade como sinal de controlo primário, juntamente com mapas de ação, de bordas e de raios, para sintetizar vídeos de manipulação multi-vista espacialmente aumentados. Experiências em quatro tarefas de manipulação do mundo real demonstram que políticas treinadas com dados gerados a partir de apenas 1-5 demonstrações de origem podem igualar ou superar aquelas treinadas com 50 demonstrações reais, melhorando a eficiência dos dados em até 10-50 vezes. Além disso, resultados experimentais em edição de altura e textura demonstram a flexibilidade e extensibilidade da estrutura, indicando o seu potencial para servir como uma estrutura unificada de geração de dados.

English

Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.

Real2Edit2Real: Gerando Demonstrações Robóticas por meio de uma Interface de Controle 3D

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

Resumo

Support