ChatPaper.aiChatPaper

Real2Edit2Real: 3D 제어 인터페이스를 통한 로봇 데모 생성

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

December 22, 2025
저자: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI

초록

로봇 학습의 최근 발전은 대규모 데이터셋과 강력한 시각-운동 정책 아키텍처에 의해 주도되어 왔으나, 정책의 강건성은 다양한 데모 데이터 수집의 상당한 비용, 특히 조작 작업에서의 공간적 일반화를 위해 필요한 데이터 수집 비용으로 인해 여전히 제한적입니다. 이러한 반복적인 데이터 수집 부담을 줄이기 위해, 본 연구에서는 3D 제어 인터페이스를 통해 3D 편집 기능과 2D 시각 데이터를 연결하여 새로운 데모 데이터를 생성하는 Real2Edit2Real 프레임워크를 제안합니다. 우리의 접근 방식은 먼저 미터 단위 규모의 3D 재구성 모델을 사용하여 다중 시점 RGB 관측으로부터 장면 기하구조를 재구성합니다. 재구성된 기하구조를 기반으로 포인트 클라우드에 대해 깊이 신뢰도가 높은 3D 편집을 수행하여 새로운 조작 궤적을 생성함과 동시에 로봇 자세를 기하학적으로 보정하여 물리적으로 일관된 깊이를 복원하며, 이는 새로운 데모 데이터 합성을 위한 신뢰할 수 있는 조건으로 작용합니다. 마지막으로, 깊이를 주요 제어 신호로 하고 동작, 에지, 광선 맵을 함께 활용하는 다중 조건 비디오 생성 모델을 제안하여 공간적으로 증강된 다중 시점 조작 비디오를 합성합니다. 4가지 실제 조작 작업에 대한 실험 결과, 단 1-5개의 원본 데모 데이터로부터 생성된 데이터로 학습된 정책이 50개의 실제 데모 데이터로 학습된 정책의 성능을 따라가거나 능가할 수 있으며, 데이터 효율성을 최대 10-50배 향상시킬 수 있음을 입증했습니다. 또한, 높이 및 텍스처 편집에 대한 실험 결과는 본 프레임워크의 유연성과 확장성을 보여주며, 통합 데이터 생성 프레임워크로서의 잠재력을 시사합니다.
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.
PDF42December 24, 2025