R2RGEN : Génération de données 3D de réel à réel pour la manipulation spatialement généralisée
R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
October 9, 2025
papers.authors: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
Dans l'objectif d'une manipulation robotique généralisée, la généralisation spatiale constitue la capacité la plus fondamentale, exigeant que la politique fonctionne de manière robuste face à différentes distributions spatiales d'objets, d'environnements et de l'agent lui-même. Pour y parvenir, il est nécessaire de collecter un nombre substantiel de démonstrations humaines afin de couvrir diverses configurations spatiales pour l'entraînement d'une politique visuomotrice généralisée via l'apprentissage par imitation. Les travaux antérieurs explorent une direction prometteuse qui exploite la génération de données pour acquérir des données spatialement diversifiées à partir d'un nombre minimal de démonstrations sources. Cependant, la plupart des approches sont confrontées à un écart significatif entre simulation et réalité et sont souvent limitées à des scénarios contraints, tels que des configurations à base fixe et des points de vue prédéfinis de la caméra. Dans cet article, nous proposons un cadre de génération de données 3D réel-réel (R2RGen) qui augmente directement les paires observation-action sous forme de nuages de points pour générer des données du monde réel. R2RGen est exempt de simulateur et de rendu, ce qui le rend efficace et prêt à l'emploi. Plus précisément, étant donné une seule démonstration source, nous introduisons un mécanisme d'annotation pour l'analyse fine de la scène et de la trajectoire. Une stratégie d'augmentation par groupes est proposée pour gérer les compositions complexes d'objets multiples et les contraintes de tâches variées. Nous présentons également un traitement prenant en compte la caméra pour aligner la distribution des données générées avec celle des capteurs 3D du monde réel. Empiriquement, R2RGen améliore considérablement l'efficacité des données lors de vastes expériences et démontre un fort potentiel de mise à l'échelle et d'application dans la manipulation mobile.
English
Towards the aim of generalized robotic manipulation, spatial generalization
is the most fundamental capability that requires the policy to work robustly
under different spatial distribution of objects, environment and agent itself.
To achieve this, substantial human demonstrations need to be collected to cover
different spatial configurations for training a generalized visuomotor policy
via imitation learning. Prior works explore a promising direction that
leverages data generation to acquire abundant spatially diverse data from
minimal source demonstrations. However, most approaches face significant
sim-to-real gap and are often limited to constrained settings, such as
fixed-base scenarios and predefined camera viewpoints. In this paper, we
propose a real-to-real 3D data generation framework (R2RGen) that directly
augments the pointcloud observation-action pairs to generate real-world data.
R2RGen is simulator- and rendering-free, thus being efficient and
plug-and-play. Specifically, given a single source demonstration, we introduce
an annotation mechanism for fine-grained parsing of scene and trajectory. A
group-wise augmentation strategy is proposed to handle complex multi-object
compositions and diverse task constraints. We further present camera-aware
processing to align the distribution of generated data with real-world 3D
sensor. Empirically, R2RGen substantially enhances data efficiency on extensive
experiments and demonstrates strong potential for scaling and application on
mobile manipulation.