R2RGEN: Real-to-Real 3D Data Generatie voor Ruimtelijk Gegeneraliseerde Manipulatie

Samenvatting

Met het oog op het doel van gegeneraliseerde robotmanipulatie is ruimtelijke generalisatie de meest fundamentele capaciteit die vereist dat het beleid robuust werkt onder verschillende ruimtelijke verdelingen van objecten, de omgeving en de agent zelf. Om dit te bereiken, moeten aanzienlijke hoeveelheden menselijke demonstraties worden verzameld om verschillende ruimtelijke configuraties te dekken voor het trainen van een gegeneraliseerd visuomotorisch beleid via imitatieleren. Eerdere werken verkennen een veelbelovende richting die gebruikmaakt van datageneratie om overvloedige, ruimtelijk diverse gegevens te verkrijgen uit minimale brondemonstraties. De meeste benaderingen kampen echter met een aanzienlijke sim-to-real kloof en zijn vaak beperkt tot beperkte scenario's, zoals vaste basisconfiguraties en vooraf gedefinieerde camerastandpunten. In dit artikel stellen we een real-to-real 3D datageneratieframework (R2RGen) voor dat direct pointcloud observatie-actieparen uitbreidt om real-world gegevens te genereren. R2RGen is simulator- en renderingvrij, waardoor het efficiënt en plug-and-play is. Specifiek introduceren we, gegeven een enkele brondemonstratie, een annotatiemechanisme voor fijnmazige parsing van de scène en traject. Een groepgewijze augmentatiestrategie wordt voorgesteld om complexe multi-object composities en diverse taakbeperkingen te hanteren. We presenteren verder camera-aware verwerking om de verdeling van gegenereerde gegevens af te stemmen op real-world 3D sensoren. Empirisch gezien verbetert R2RGen de data-efficiëntie aanzienlijk in uitgebreide experimenten en toont het sterke potentieel voor schaalbaarheid en toepassing op mobiele manipulatie.

English

Towards the aim of generalized robotic manipulation, spatial generalization is the most fundamental capability that requires the policy to work robustly under different spatial distribution of objects, environment and agent itself. To achieve this, substantial human demonstrations need to be collected to cover different spatial configurations for training a generalized visuomotor policy via imitation learning. Prior works explore a promising direction that leverages data generation to acquire abundant spatially diverse data from minimal source demonstrations. However, most approaches face significant sim-to-real gap and are often limited to constrained settings, such as fixed-base scenarios and predefined camera viewpoints. In this paper, we propose a real-to-real 3D data generation framework (R2RGen) that directly augments the pointcloud observation-action pairs to generate real-world data. R2RGen is simulator- and rendering-free, thus being efficient and plug-and-play. Specifically, given a single source demonstration, we introduce an annotation mechanism for fine-grained parsing of scene and trajectory. A group-wise augmentation strategy is proposed to handle complex multi-object compositions and diverse task constraints. We further present camera-aware processing to align the distribution of generated data with real-world 3D sensor. Empirically, R2RGen substantially enhances data efficiency on extensive experiments and demonstrates strong potential for scaling and application on mobile manipulation.

R2RGEN: Real-to-Real 3D Data Generatie voor Ruimtelijk Gegeneraliseerde Manipulatie

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

Samenvatting

Support