R2RGEN: Real-to-Real 3D-Datengenerierung für räumlich generalisierte Manipulation
R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
October 9, 2025
papers.authors: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
Im Hinblick auf das Ziel einer generalisierten robotischen Manipulation ist die räumliche Generalisierung die grundlegendste Fähigkeit, die es der Strategie ermöglicht, robust unter verschiedenen räumlichen Verteilungen von Objekten, der Umgebung und des Agenten selbst zu funktionieren. Um dies zu erreichen, müssen umfangreiche menschliche Demonstrationen gesammelt werden, um verschiedene räumliche Konfigurationen abzudecken und so eine generalisierte visuomotorische Strategie durch Imitationslernen zu trainieren. Frühere Arbeiten erkunden einen vielversprechenden Ansatz, der die Datengenerierung nutzt, um aus minimalen Quelldemonstrationen eine Fülle von räumlich diversen Daten zu gewinnen. Die meisten Ansätze stehen jedoch vor einer erheblichen Sim-to-Real-Lücke und sind oft auf eingeschränkte Szenarien beschränkt, wie beispielsweise feste Basisszenarien und vordefinierte Kameraperspektiven. In diesem Artikel schlagen wir ein Real-to-Real-3D-Datengenerierungsframework (R2RGen) vor, das direkt Punktwolken-Beobachtungs-Aktions-Paare erweitert, um reale Daten zu generieren. R2RGen ist simulatoren- und renderingfrei und somit effizient und plug-and-play. Konkret führen wir, ausgehend von einer einzigen Quelldemonstration, einen Annotationsmechanismus für die feinkörnige Analyse von Szene und Trajektorie ein. Eine gruppenweise Erweiterungsstrategie wird vorgeschlagen, um komplexe Mehrfachobjektkompositionen und diverse Aufgabenbeschränkungen zu handhaben. Darüber hinaus präsentieren wir eine kameraabhängige Verarbeitung, um die Verteilung der generierten Daten mit realen 3D-Sensoren abzugleichen. Empirisch verbessert R2RGen die Dateneffizienz in umfangreichen Experimenten erheblich und zeigt ein starkes Potenzial für die Skalierung und Anwendung in der mobilen Manipulation.
English
Towards the aim of generalized robotic manipulation, spatial generalization
is the most fundamental capability that requires the policy to work robustly
under different spatial distribution of objects, environment and agent itself.
To achieve this, substantial human demonstrations need to be collected to cover
different spatial configurations for training a generalized visuomotor policy
via imitation learning. Prior works explore a promising direction that
leverages data generation to acquire abundant spatially diverse data from
minimal source demonstrations. However, most approaches face significant
sim-to-real gap and are often limited to constrained settings, such as
fixed-base scenarios and predefined camera viewpoints. In this paper, we
propose a real-to-real 3D data generation framework (R2RGen) that directly
augments the pointcloud observation-action pairs to generate real-world data.
R2RGen is simulator- and rendering-free, thus being efficient and
plug-and-play. Specifically, given a single source demonstration, we introduce
an annotation mechanism for fine-grained parsing of scene and trajectory. A
group-wise augmentation strategy is proposed to handle complex multi-object
compositions and diverse task constraints. We further present camera-aware
processing to align the distribution of generated data with real-world 3D
sensor. Empirically, R2RGen substantially enhances data efficiency on extensive
experiments and demonstrates strong potential for scaling and application on
mobile manipulation.