R2RGEN: Real-to-Real 3D Data Generatie voor Ruimtelijk Gegeneraliseerde Manipulatie
R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
October 9, 2025
Auteurs: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Samenvatting
Met het oog op het doel van gegeneraliseerde robotmanipulatie is ruimtelijke generalisatie de meest fundamentele capaciteit die vereist dat het beleid robuust werkt onder verschillende ruimtelijke verdelingen van objecten, de omgeving en de agent zelf. Om dit te bereiken, moeten aanzienlijke hoeveelheden menselijke demonstraties worden verzameld om verschillende ruimtelijke configuraties te dekken voor het trainen van een gegeneraliseerd visuomotorisch beleid via imitatieleren. Eerdere werken verkennen een veelbelovende richting die gebruikmaakt van datageneratie om overvloedige, ruimtelijk diverse gegevens te verkrijgen uit minimale brondemonstraties. De meeste benaderingen kampen echter met een aanzienlijke sim-to-real kloof en zijn vaak beperkt tot beperkte scenario's, zoals vaste basisconfiguraties en vooraf gedefinieerde camerastandpunten. In dit artikel stellen we een real-to-real 3D datageneratieframework (R2RGen) voor dat direct pointcloud observatie-actieparen uitbreidt om real-world gegevens te genereren. R2RGen is simulator- en renderingvrij, waardoor het efficiënt en plug-and-play is. Specifiek introduceren we, gegeven een enkele brondemonstratie, een annotatiemechanisme voor fijnmazige parsing van de scène en traject. Een groepgewijze augmentatiestrategie wordt voorgesteld om complexe multi-object composities en diverse taakbeperkingen te hanteren. We presenteren verder camera-aware verwerking om de verdeling van gegenereerde gegevens af te stemmen op real-world 3D sensoren. Empirisch gezien verbetert R2RGen de data-efficiëntie aanzienlijk in uitgebreide experimenten en toont het sterke potentieel voor schaalbaarheid en toepassing op mobiele manipulatie.
English
Towards the aim of generalized robotic manipulation, spatial generalization
is the most fundamental capability that requires the policy to work robustly
under different spatial distribution of objects, environment and agent itself.
To achieve this, substantial human demonstrations need to be collected to cover
different spatial configurations for training a generalized visuomotor policy
via imitation learning. Prior works explore a promising direction that
leverages data generation to acquire abundant spatially diverse data from
minimal source demonstrations. However, most approaches face significant
sim-to-real gap and are often limited to constrained settings, such as
fixed-base scenarios and predefined camera viewpoints. In this paper, we
propose a real-to-real 3D data generation framework (R2RGen) that directly
augments the pointcloud observation-action pairs to generate real-world data.
R2RGen is simulator- and rendering-free, thus being efficient and
plug-and-play. Specifically, given a single source demonstration, we introduce
an annotation mechanism for fine-grained parsing of scene and trajectory. A
group-wise augmentation strategy is proposed to handle complex multi-object
compositions and diverse task constraints. We further present camera-aware
processing to align the distribution of generated data with real-world 3D
sensor. Empirically, R2RGen substantially enhances data efficiency on extensive
experiments and demonstrates strong potential for scaling and application on
mobile manipulation.