R2RGEN: Генерация данных Real-to-Real в 3D для пространственно обобщённых манипуляций
R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
October 9, 2025
Авторы: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Аннотация
В направлении достижения обобщенной роботизированной манипуляции пространственная обобщаемость является наиболее фундаментальной способностью, требующей от политики устойчивой работы при различных пространственных распределениях объектов, окружения и самого агента. Для достижения этого необходимо собрать значительное количество человеческих демонстраций, охватывающих различные пространственные конфигурации, для обучения обобщенной визуомоторной политики с помощью имитационного обучения. Предыдущие работы исследуют перспективное направление, использующее генерацию данных для получения обильных пространственно разнообразных данных из минимального набора исходных демонстраций. Однако большинство подходов сталкиваются с существенным разрывом между симуляцией и реальностью и часто ограничены узкими условиями, такими как сценарии с фиксированной базой и предопределенные точки обзора камеры. В данной статье мы предлагаем фреймворк генерации 3D данных "реальное-в-реальное" (R2RGen), который непосредственно расширяет пары наблюдение-действие на основе облака точек для генерации данных в реальном мире. R2RGen не требует симулятора и рендеринга, что делает его эффективным и подключаемым. В частности, для одной исходной демонстрации мы вводим механизм аннотации для детального анализа сцены и траектории. Предлагается стратегия группового расширения для обработки сложных композиций из нескольких объектов и разнообразных ограничений задачи. Мы также представляем обработку с учетом камеры для согласования распределения сгенерированных данных с реальными 3D сенсорами. Эмпирически, R2RGen значительно повышает эффективность данных в обширных экспериментах и демонстрирует высокий потенциал для масштабирования и применения в мобильной манипуляции.
English
Towards the aim of generalized robotic manipulation, spatial generalization
is the most fundamental capability that requires the policy to work robustly
under different spatial distribution of objects, environment and agent itself.
To achieve this, substantial human demonstrations need to be collected to cover
different spatial configurations for training a generalized visuomotor policy
via imitation learning. Prior works explore a promising direction that
leverages data generation to acquire abundant spatially diverse data from
minimal source demonstrations. However, most approaches face significant
sim-to-real gap and are often limited to constrained settings, such as
fixed-base scenarios and predefined camera viewpoints. In this paper, we
propose a real-to-real 3D data generation framework (R2RGen) that directly
augments the pointcloud observation-action pairs to generate real-world data.
R2RGen is simulator- and rendering-free, thus being efficient and
plug-and-play. Specifically, given a single source demonstration, we introduce
an annotation mechanism for fine-grained parsing of scene and trajectory. A
group-wise augmentation strategy is proposed to handle complex multi-object
compositions and diverse task constraints. We further present camera-aware
processing to align the distribution of generated data with real-world 3D
sensor. Empirically, R2RGen substantially enhances data efficiency on extensive
experiments and demonstrates strong potential for scaling and application on
mobile manipulation.