ChatPaper.aiChatPaper

Real2Edit2Real : Génération de démonstrations robotiques via une interface de contrôle 3D

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

December 22, 2025
papers.authors: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI

papers.abstract

Les progrès récents en apprentissage robotique sont portés par des jeux de données à grande échelle et des architectures de politiques visuomotrices puissantes, mais la robustesse des politiques reste limitée par le coût substantiel de collecte de démonstrations diversifiées, particulièrement pour la généralisation spatiale dans les tâches de manipulation. Pour réduire la collecte répétitive de données, nous présentons Real2Edit2Real, un cadre générant de nouvelles démonstrations en reliant l'éditabilité 3D aux données visuelles 2D via une interface de contrôle 3D. Notre approche reconstruit d'abord la géométrie de la scène à partir d'observations RGB multi-vues avec un modèle de reconstruction 3D à échelle métrique. Sur la base de la géométrie reconstruite, nous effectuons une édition 3D fiable en profondeur sur des nuages de points pour générer de nouvelles trajectoires de manipulation tout en corrigeant géométriquement les poses du robot pour retrouver une profondeur physiquement cohérente, servant de condition fiable pour synthétiser de nouvelles démonstrations. Enfin, nous proposons un modèle de génération vidéo multi-conditionnelle guidé par la profondeur comme signal de contrôle principal, accompagné de cartes d'action, de contours et de rayons, pour synthétiser des vidéos de manipulation multi-vues spatialement augmentées. Les expériences sur quatre tâches de manipulation réelles démontrent que les politiques entraînées sur des données générées à partir de seulement 1 à 5 démonstrations sources peuvent égaler ou surpasser celles entraînées sur 50 démonstrations réelles, améliorant l'efficacité des données jusqu'à 10-50 fois. De plus, les résultats expérimentaux sur l'édition de hauteur et de texture démontrent la flexibilité et l'extensibilité du cadre, indiquant son potentiel à servir de framework unifié de génération de données.
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.
PDF42December 24, 2025