R2RGEN: Real-to-Real 3D-Datengenerierung für räumlich generalisierte Manipulation

papers.abstract

Im Hinblick auf das Ziel einer generalisierten robotischen Manipulation ist die räumliche Generalisierung die grundlegendste Fähigkeit, die es der Strategie ermöglicht, robust unter verschiedenen räumlichen Verteilungen von Objekten, der Umgebung und des Agenten selbst zu funktionieren. Um dies zu erreichen, müssen umfangreiche menschliche Demonstrationen gesammelt werden, um verschiedene räumliche Konfigurationen abzudecken und so eine generalisierte visuomotorische Strategie durch Imitationslernen zu trainieren. Frühere Arbeiten erkunden einen vielversprechenden Ansatz, der die Datengenerierung nutzt, um aus minimalen Quelldemonstrationen eine Fülle von räumlich diversen Daten zu gewinnen. Die meisten Ansätze stehen jedoch vor einer erheblichen Sim-to-Real-Lücke und sind oft auf eingeschränkte Szenarien beschränkt, wie beispielsweise feste Basisszenarien und vordefinierte Kameraperspektiven. In diesem Artikel schlagen wir ein Real-to-Real-3D-Datengenerierungsframework (R2RGen) vor, das direkt Punktwolken-Beobachtungs-Aktions-Paare erweitert, um reale Daten zu generieren. R2RGen ist simulatoren- und renderingfrei und somit effizient und plug-and-play. Konkret führen wir, ausgehend von einer einzigen Quelldemonstration, einen Annotationsmechanismus für die feinkörnige Analyse von Szene und Trajektorie ein. Eine gruppenweise Erweiterungsstrategie wird vorgeschlagen, um komplexe Mehrfachobjektkompositionen und diverse Aufgabenbeschränkungen zu handhaben. Darüber hinaus präsentieren wir eine kameraabhängige Verarbeitung, um die Verteilung der generierten Daten mit realen 3D-Sensoren abzugleichen. Empirisch verbessert R2RGen die Dateneffizienz in umfangreichen Experimenten erheblich und zeigt ein starkes Potenzial für die Skalierung und Anwendung in der mobilen Manipulation.

English

Towards the aim of generalized robotic manipulation, spatial generalization is the most fundamental capability that requires the policy to work robustly under different spatial distribution of objects, environment and agent itself. To achieve this, substantial human demonstrations need to be collected to cover different spatial configurations for training a generalized visuomotor policy via imitation learning. Prior works explore a promising direction that leverages data generation to acquire abundant spatially diverse data from minimal source demonstrations. However, most approaches face significant sim-to-real gap and are often limited to constrained settings, such as fixed-base scenarios and predefined camera viewpoints. In this paper, we propose a real-to-real 3D data generation framework (R2RGen) that directly augments the pointcloud observation-action pairs to generate real-world data. R2RGen is simulator- and rendering-free, thus being efficient and plug-and-play. Specifically, given a single source demonstration, we introduce an annotation mechanism for fine-grained parsing of scene and trajectory. A group-wise augmentation strategy is proposed to handle complex multi-object compositions and diverse task constraints. We further present camera-aware processing to align the distribution of generated data with real-world 3D sensor. Empirically, R2RGen substantially enhances data efficiency on extensive experiments and demonstrates strong potential for scaling and application on mobile manipulation.

R2RGEN: Real-to-Real 3D-Datengenerierung für räumlich generalisierte Manipulation

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

papers.abstract

Support