ChatPaper.aiChatPaper

Real2Edit2Real: Generación de Demostraciones Robóticas mediante una Interfaz de Control 3D

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

December 22, 2025
Autores: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI

Resumen

Los recientes avances en el aprendizaje robótico han estado impulsados por conjuntos de datos a gran escala y arquitecturas de políticas visuomotoras potentes, sin embargo, la robustez de las políticas sigue estando limitada por el coste sustancial de recopilar demostraciones diversas, particularmente para la generalización espacial en tareas de manipulación. Para reducir la recolección repetitiva de datos, presentamos Real2Edit2Real, un marco que genera nuevas demostraciones mediante la conexión de la capacidad de edición 3D con datos visuales 2D a través de una interfaz de control 3D. Nuestro enfoque primero reconstruye la geometría de la escena a partir de observaciones RGB multivista con un modelo de reconstrucción 3D a escala métrica. Basándonos en la geometría reconstruida, realizamos una edición 3D fiable en profundidad sobre nubes de puntos para generar nuevas trayectorias de manipulación, corrigiendo geométricamente las poses del robot para recuperar una profundidad físicamente consistente, lo que sirve como condición fiable para sintetizar nuevas demostraciones. Finalmente, proponemos un modelo de generación de video multicondicional guiado por la profundidad como señal de control principal, junto con mapas de acción, bordes y rayos, para sintetizar videos de manipulación multivista con aumento espacial. Los experimentos en cuatro tareas de manipulación del mundo real demuestran que las políticas entrenadas con datos generados a partir de solo 1-5 demostraciones fuente pueden igualar o superar a aquellas entrenadas con 50 demostraciones reales, mejorando la eficiencia de los datos hasta en 10-50 veces. Además, los resultados experimentales en la edición de altura y textura demuestran la flexibilidad y extensibilidad del marco, indicando su potencial para servir como un marco unificado de generación de datos.
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.
PDF42December 24, 2025