R2RGEN: Geração de Dados 3D Real-to-Real para Manipulação Espacialmente Generalizada
R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
October 9, 2025
Autores: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Resumo
Com o objetivo de alcançar uma manipulação robótica generalizada, a generalização espacial é a capacidade mais fundamental, exigindo que a política funcione de forma robusta sob diferentes distribuições espaciais de objetos, ambiente e do próprio agente. Para atingir isso, é necessário coletar uma quantidade substancial de demonstrações humanas que cubram diferentes configurações espaciais para treinar uma política visuomotora generalizada por meio de aprendizado por imitação. Trabalhos anteriores exploram uma direção promissora que aproveita a geração de dados para adquirir dados espacialmente diversos a partir de um número mínimo de demonstrações de origem. No entanto, a maioria das abordagens enfrenta uma lacuna significativa entre simulação e realidade e frequentemente se limita a cenários restritos, como cenários de base fixa e pontos de vista de câmera predefinidos. Neste artigo, propomos um framework de geração de dados 3D de real para real (R2RGen) que amplia diretamente os pares observação-ação de nuvem de pontos para gerar dados do mundo real. O R2RGen é livre de simulador e renderização, sendo, portanto, eficiente e plug-and-play. Especificamente, dada uma única demonstração de origem, introduzimos um mecanismo de anotação para análise detalhada da cena e da trajetória. Uma estratégia de ampliação em grupo é proposta para lidar com composições complexas de múltiplos objetos e diversas restrições de tarefas. Além disso, apresentamos um processamento consciente da câmera para alinhar a distribuição dos dados gerados com sensores 3D do mundo real. Empiricamente, o R2RGen melhora substancialmente a eficiência dos dados em experimentos extensivos e demonstra um forte potencial para escalabilidade e aplicação em manipulação móvel.
English
Towards the aim of generalized robotic manipulation, spatial generalization
is the most fundamental capability that requires the policy to work robustly
under different spatial distribution of objects, environment and agent itself.
To achieve this, substantial human demonstrations need to be collected to cover
different spatial configurations for training a generalized visuomotor policy
via imitation learning. Prior works explore a promising direction that
leverages data generation to acquire abundant spatially diverse data from
minimal source demonstrations. However, most approaches face significant
sim-to-real gap and are often limited to constrained settings, such as
fixed-base scenarios and predefined camera viewpoints. In this paper, we
propose a real-to-real 3D data generation framework (R2RGen) that directly
augments the pointcloud observation-action pairs to generate real-world data.
R2RGen is simulator- and rendering-free, thus being efficient and
plug-and-play. Specifically, given a single source demonstration, we introduce
an annotation mechanism for fine-grained parsing of scene and trajectory. A
group-wise augmentation strategy is proposed to handle complex multi-object
compositions and diverse task constraints. We further present camera-aware
processing to align the distribution of generated data with real-world 3D
sensor. Empirically, R2RGen substantially enhances data efficiency on extensive
experiments and demonstrates strong potential for scaling and application on
mobile manipulation.