Real2Edit2Real: Генерация роботизированных демонстраций с помощью 3D-интерфейса управления
Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface
December 22, 2025
Авторы: Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong
cs.AI
Аннотация
Недавние успехи в области обучения роботов обусловлены использованием крупномасштабных наборов данных и мощных архитектур визуомоторных стратегий, однако надежность стратегий остается ограниченной из-за значительных затрат на сбор разнообразных демонстраций, особенно для пространственной генерализации в задачах манипулирования. Чтобы сократить повторяющийся сбор данных, мы представляем фреймворк Real2Edit2Real, который генерирует новые демонстрации, объединяя 3D-редактируемость с 2D-визуальными данными через 3D-интерфейс управления. Наш подход сначала восстанавливает геометрию сцены из многовидовых RGB-наблюдений с помощью метрической 3D-модели реконструкции. На основе восстановленной геометрии мы выполняем надежное по глубине 3D-редактирование облаков точек для генерации новых траекторий манипулирования, одновременно геометрически корректируя позы робота для восстановления физически согласованной глубины, что служит надежным условием для синтеза новых демонстраций. Наконец, мы предлагаем многокондиционную модель генерации видео, управляемую глубиной в качестве основного сигнала контроля вместе с картами действий, границ и лучей, для синтеза пространственно усиленных многовидовых видео манипулирования. Эксперименты на четырех реальных задачах манипулирования показывают, что стратегии, обученные на данных, сгенерированных всего из 1-5 исходных демонстраций, могут сравниться или превзойти стратегии, обученные на 50 реальных демонстрациях, повышая эффективность использования данных до 10-50 раз. Более того, результаты экспериментов по редактированию высоты и текстуры демонстрируют гибкость и расширяемость фреймворка, указывая на его потенциал в качестве универсальной системы генерации данных.
English
Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework.