Real2Edit2Real: Generazione di Dimostrazioni Robotiche tramite un'Interfaccia di Controllo 3D
Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface
December 22, 2025
Autori: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI
Abstract
I recenti progressi nell'apprendimento robotico sono stati guidati da dataset su larga scala e da potenti architetture di policy visuomotorie, tuttavia la robustezza delle policy rimane limitata dal costo sostanziale della raccolta di dimostrazioni diversificate, in particolare per la generalizzazione spaziale nei compiti di manipolazione. Per ridurre la raccolta ripetitiva di dati, presentiamo Real2Edit2Real, un framework che genera nuove dimostrazioni colmando il divario tra l'editabilità 3D e i dati visivi 2D attraverso un'interfaccia di controllo 3D.
Il nostro approccio ricostruisce dapprima la geometria della scena da osservazioni RGB multi-vista con un modello di ricostruzione 3D a scala metrica. Sulla base della geometria ricostruita, eseguiamo editing 3D affidabile in termini di profondità sulle nuvole di punti per generare nuove traiettorie di manipolazione, correggendo geometricamente le pose del robot per recuperare una profondità fisicamente consistente, che funge da condizione affidabile per sintetizzare nuove dimostrazioni. Infine, proponiamo un modello di generazione video multi-condizionale guidato dalla profondità come segnale di controllo primario, insieme a mappe di azione, edge e ray, per sintetizzare video di manipolazione multi-vista con aumento spaziale.
Gli esperimenti su quattro compiti di manipolazione del mondo reale dimostrano che le policy addestrate su dati generati da sole 1-5 dimostrazioni sorgente possono eguagliare o superare quelle addestrate su 50 dimostrazioni reali, migliorando l'efficienza dei dati fino a 10-50 volte. Inoltre, i risultati sperimentali sull'editing di altezza e texture dimostrano la flessibilità e l'estensibilità del framework, indicandone il potenziale di fungere da framework unificato per la generazione di dati.
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.