ChatPaper.aiChatPaper

R2RGEN: Generación de Datos 3D de Real a Real para la Manipulación Espacialmente Generalizada

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

October 9, 2025
Autores: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

Resumen

Hacia el objetivo de la manipulación robótica generalizada, la generalización espacial es la capacidad más fundamental que requiere que la política funcione de manera robusta bajo diferentes distribuciones espaciales de objetos, entorno y del propio agente. Para lograr esto, es necesario recopilar una cantidad sustancial de demostraciones humanas que cubran diferentes configuraciones espaciales para entrenar una política visuomotora generalizada mediante aprendizaje por imitación. Trabajos previos exploran una dirección prometedora que aprovecha la generación de datos para adquirir datos espacialmente diversos a partir de un número mínimo de demostraciones fuente. Sin embargo, la mayoría de los enfoques enfrentan una brecha significativa entre simulación y realidad y a menudo se limitan a entornos restringidos, como escenarios de base fija y puntos de vista de cámara predefinidos. En este artículo, proponemos un marco de generación de datos 3D de realidad a realidad (R2RGen) que aumenta directamente los pares observación-acción de nubes de puntos para generar datos del mundo real. R2RGen no requiere simuladores ni renderizado, lo que lo hace eficiente y plug-and-play. Específicamente, dada una única demostración fuente, introducimos un mecanismo de anotación para el análisis detallado de la escena y la trayectoria. Se propone una estrategia de aumento por grupos para manejar composiciones complejas de múltiples objetos y diversas restricciones de tareas. Además, presentamos un procesamiento consciente de la cámara para alinear la distribución de los datos generados con los sensores 3D del mundo real. Empíricamente, R2RGen mejora sustancialmente la eficiencia de los datos en experimentos extensos y demuestra un fuerte potencial para la escalabilidad y aplicación en la manipulación móvil.
English
Towards the aim of generalized robotic manipulation, spatial generalization is the most fundamental capability that requires the policy to work robustly under different spatial distribution of objects, environment and agent itself. To achieve this, substantial human demonstrations need to be collected to cover different spatial configurations for training a generalized visuomotor policy via imitation learning. Prior works explore a promising direction that leverages data generation to acquire abundant spatially diverse data from minimal source demonstrations. However, most approaches face significant sim-to-real gap and are often limited to constrained settings, such as fixed-base scenarios and predefined camera viewpoints. In this paper, we propose a real-to-real 3D data generation framework (R2RGen) that directly augments the pointcloud observation-action pairs to generate real-world data. R2RGen is simulator- and rendering-free, thus being efficient and plug-and-play. Specifically, given a single source demonstration, we introduce an annotation mechanism for fine-grained parsing of scene and trajectory. A group-wise augmentation strategy is proposed to handle complex multi-object compositions and diverse task constraints. We further present camera-aware processing to align the distribution of generated data with real-world 3D sensor. Empirically, R2RGen substantially enhances data efficiency on extensive experiments and demonstrates strong potential for scaling and application on mobile manipulation.
PDF22October 10, 2025