R2RGEN: Geração de Dados 3D Real-to-Real para Manipulação Espacialmente Generalizada

Resumo

Com o objetivo de alcançar uma manipulação robótica generalizada, a generalização espacial é a capacidade mais fundamental, exigindo que a política funcione de forma robusta sob diferentes distribuições espaciais de objetos, ambiente e do próprio agente. Para atingir isso, é necessário coletar uma quantidade substancial de demonstrações humanas que cubram diferentes configurações espaciais para treinar uma política visuomotora generalizada por meio de aprendizado por imitação. Trabalhos anteriores exploram uma direção promissora que aproveita a geração de dados para adquirir dados espacialmente diversos a partir de um número mínimo de demonstrações de origem. No entanto, a maioria das abordagens enfrenta uma lacuna significativa entre simulação e realidade e frequentemente se limita a cenários restritos, como cenários de base fixa e pontos de vista de câmera predefinidos. Neste artigo, propomos um framework de geração de dados 3D de real para real (R2RGen) que amplia diretamente os pares observação-ação de nuvem de pontos para gerar dados do mundo real. O R2RGen é livre de simulador e renderização, sendo, portanto, eficiente e plug-and-play. Especificamente, dada uma única demonstração de origem, introduzimos um mecanismo de anotação para análise detalhada da cena e da trajetória. Uma estratégia de ampliação em grupo é proposta para lidar com composições complexas de múltiplos objetos e diversas restrições de tarefas. Além disso, apresentamos um processamento consciente da câmera para alinhar a distribuição dos dados gerados com sensores 3D do mundo real. Empiricamente, o R2RGen melhora substancialmente a eficiência dos dados em experimentos extensivos e demonstra um forte potencial para escalabilidade e aplicação em manipulação móvel.

English

Towards the aim of generalized robotic manipulation, spatial generalization is the most fundamental capability that requires the policy to work robustly under different spatial distribution of objects, environment and agent itself. To achieve this, substantial human demonstrations need to be collected to cover different spatial configurations for training a generalized visuomotor policy via imitation learning. Prior works explore a promising direction that leverages data generation to acquire abundant spatially diverse data from minimal source demonstrations. However, most approaches face significant sim-to-real gap and are often limited to constrained settings, such as fixed-base scenarios and predefined camera viewpoints. In this paper, we propose a real-to-real 3D data generation framework (R2RGen) that directly augments the pointcloud observation-action pairs to generate real-world data. R2RGen is simulator- and rendering-free, thus being efficient and plug-and-play. Specifically, given a single source demonstration, we introduce an annotation mechanism for fine-grained parsing of scene and trajectory. A group-wise augmentation strategy is proposed to handle complex multi-object compositions and diverse task constraints. We further present camera-aware processing to align the distribution of generated data with real-world 3D sensor. Empirically, R2RGen substantially enhances data efficiency on extensive experiments and demonstrates strong potential for scaling and application on mobile manipulation.

R2RGEN: Geração de Dados 3D Real-to-Real para Manipulação Espacialmente Generalizada

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

Resumo

Support