Real2Edit2Real: Het Genereren van Roboticademonstraties via een 3D-besturingsinterface
Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface
December 22, 2025
Auteurs: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI
Samenvatting
Recente vooruitgang in robotleren is aangedreven door grootschalige datasets en krachtige visuomotorische beleidsarchitecturen, maar de robuustheid van beleid blijft beperkt door de aanzienlijke kosten van het verzamelen van diverse demonstraties, vooral voor ruimtelijke generalisatie bij manipulatietaken. Om repetitieve datacollectie te verminderen, presenteren we Real2Edit2Real, een raamwerk dat nieuwe demonstraties genereert door 3D-bewerkbaarheid te verbinden met 2D-visuele gegevens via een 3D-besturingsinterface. Onze aanpak reconstrueert eerst de scènegeometrie uit RGB-waarnemingen met meerdere viewpoints met een metriekaal 3D-reconstructiemodel. Op basis van de gereconstrueerde geometrie voeren we dieptebetrouwbare 3D-bewerkingen uit op puntenwolken om nieuwe manipulatietrajecten te genereren, waarbij we de robotposes geometrisch corrigeren om fysiek consistente diepte te herstellen, wat dient als betrouwbare voorwaarde voor het synthetiseren van nieuwe demonstraties. Ten slotte stellen we een multi-conditioneel videogeneratiemodel voor dat wordt gestuurd door diepte als primair controlesignaal, samen met actie-, rand- en straalafbeeldingen, om ruimtelijk uitgebreide multi-view manipulatiewideo's te synthetiseren. Experimenten met vier real-world manipulatietaken tonen aan dat beleid getraind op gegevens gegenereerd uit slechts 1-5 brondemonstraties even goed of beter kan presteren dan beleid getraind op 50 real-world demonstraties, wat de data-efficiëntie tot 10-50x verbetert. Bovendien tonen experimentele resultaten voor hoogte- en textuurbewerking de flexibiliteit en uitbreidbaarheid van het raamwerk aan, wat wijst op het potentieel om als een uniform data-generatieraamwerk te dienen.
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.