ChatPaper.aiChatPaper

Real2Edit2Real: Erzeugung robotischer Demonstrationen über eine 3D-Steuerungsoberfläche

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

December 22, 2025
papers.authors: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI

papers.abstract

Jüngste Fortschritte im Robotik-Lernen wurden durch umfangreiche Datensätze und leistungsstarke visuomotorische Policy-Architekturen erzielt, doch die Robustheit der Policies bleibt durch den erheblichen Aufwand der Erfassung diverser Demonstrationen eingeschränkt, insbesondere für räumliche Generalisierung bei Manipulationsaufgaben. Um repetitive Datenerfassung zu reduzieren, stellen wir Real2Edit2Real vor – ein Framework, das neue Demonstrationen generiert, indem es 3D-Editierbarkeit mit 2D-Bilddaten durch eine 3D-Steuerungsschnittstelle verbindet. Unser Ansatz rekonstruiert zunächst die Szenengeometrie aus multiview RGB-Beobachtungen mit einem metrikskalierten 3D-Rekonstruktionsmodell. Basierend auf der rekonstruierten Geometrie führen wir tiefenreliable 3D-Bearbeitungen an Punktwolken durch, um neue Manipulationstrajektorien zu erzeugen, wobei wir die Roboterposen geometrisch korrigieren, um physikalisch konsistente Tiefeninformationen wiederherzustellen, die als zuverlässige Bedingung für die Synthese neuer Demonstrationen dienen. Abschließend schlagen wir ein multikonditionales Videogenerierungsmodell vor, das durch Tiefeninformationen als primäres Steuersignal zusammen mit Aktions-, Kanten- und Strahlenkarten geleitet wird, um räumlich augmentierte multiview Manipulationsvideos zu synthetisieren. Experimente an vier realen Manipulationsaufgaben zeigen, dass Policies, die mit aus nur 1–5 Quelldemonstrationen generierten Daten trainiert wurden, mit denen auf 50 realen Demonstrationen trainierten Policies gleichauf liegen oder diese übertreffen und die Dateneffizienz um bis zu 10–50x steigern. Darüber hinaus demonstrieren experimentelle Ergebnisse zu Höhen- und Texturbearbeitung die Flexibilität und Erweiterbarkeit des Frameworks und deuten auf sein Potenzial als einheitliches Datengenerierungsframework hin.
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.
PDF42December 24, 2025