ChatPaper.aiChatPaper

Real2Edit2Real: 3D制御インターフェースを用いたロボット実演の生成

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

December 22, 2025
著者: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI

要旨

ロボット学習の最近の進歩は、大規模データセットと強力な視覚運動ポリシーアーキテクチャによって推進されてきたが、ポリシーの頑健性は、多様な実証データ収集の多大なコスト、特に把持タスクにおける空間的一般化のためのデータ収集コストによって制限されている。反復的なデータ収集を削減するため、本論文では3D制御インターフェースを介して3D編集性と2D視覚データを橋渡しすることで新たな実証データを生成するフレームワーク、Real2Edit2Realを提案する。本手法ではまず、メートル尺度の3D再構成モデルを用いて、多視点RGB観測からシーン幾何学を再構築する。再構築された幾何学に基づき、点群に対して深度信頼性のある3D編集を施し、新たな把持軌道を生成するとともに、ロボット姿勢を幾何学的に補正して物理的に一貫した深度を回復する。これにより、新たな実証データ合成の信頼性の高い条件が得られる。最後に、深度を主制御信号とし、行動マップ、エッジマップ、レイマップを補助的に用いる多条件ビデオ生成モデルを提案し、空間的に拡張された多視点把持ビデオを合成する。4つの実世界把持タスクにおける実験により、わずか1~5個の元実証データから生成されたデータで訓練したポリシーが、50個の実世界実証データで訓練したポリシーと同等以上の性能を達成可能であり、データ効率を最大10~50倍改善できることを実証した。さらに、高さとテクスチャ編集に関する実験結果は、本フレームワークの柔軟性と拡張性を示しており、統合的なデータ生成フレームワークとしての可能性を示唆している。
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.
PDF42December 24, 2025