ChatPaper.aiChatPaper

R2RGEN: Generazione di Dati 3D da Reale a Reale per la Manipolazione Spazialmente Generalizzata

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

October 9, 2025
Autori: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

Abstract

Verso l'obiettivo della manipolazione robotica generalizzata, la generalizzazione spaziale rappresenta la capacità più fondamentale, richiedendo che la politica operi in modo robusto sotto diverse distribuzioni spaziali di oggetti, ambiente e dell'agente stesso. Per raggiungere questo obiettivo, è necessario raccogliere un numero sostanziale di dimostrazioni umane che coprano diverse configurazioni spaziali per addestrare una politica visuomotoria generalizzata tramite apprendimento per imitazione. I lavori precedenti esplorano una direzione promettente che sfrutta la generazione di dati per acquisire dati abbondanti e spazialmente diversificati a partire da un numero minimo di dimostrazioni sorgente. Tuttavia, la maggior parte degli approcci affronta un significativo divario sim-to-real ed è spesso limitata a contesti vincolati, come scenari a base fissa e punti di vista predefiniti della telecamera. In questo articolo, proponiamo un framework di generazione di dati 3D real-to-real (R2RGen) che amplia direttamente le coppie osservazione-azione basate su pointcloud per generare dati del mondo reale. R2RGen è privo di simulatore e rendering, risultando così efficiente e plug-and-play. Nello specifico, data una singola dimostrazione sorgente, introduciamo un meccanismo di annotazione per l'analisi fine della scena e della traiettoria. Viene proposta una strategia di ampliamento per gruppi per gestire composizioni complesse di più oggetti e vincoli di task diversificati. Presentiamo inoltre un'elaborazione consapevole della telecamera per allineare la distribuzione dei dati generati con i sensori 3D del mondo reale. Empiricamente, R2RGen migliora sostanzialmente l'efficienza dei dati in esperimenti estesi e dimostra un forte potenziale per la scalabilità e l'applicazione nella manipolazione mobile.
English
Towards the aim of generalized robotic manipulation, spatial generalization is the most fundamental capability that requires the policy to work robustly under different spatial distribution of objects, environment and agent itself. To achieve this, substantial human demonstrations need to be collected to cover different spatial configurations for training a generalized visuomotor policy via imitation learning. Prior works explore a promising direction that leverages data generation to acquire abundant spatially diverse data from minimal source demonstrations. However, most approaches face significant sim-to-real gap and are often limited to constrained settings, such as fixed-base scenarios and predefined camera viewpoints. In this paper, we propose a real-to-real 3D data generation framework (R2RGen) that directly augments the pointcloud observation-action pairs to generate real-world data. R2RGen is simulator- and rendering-free, thus being efficient and plug-and-play. Specifically, given a single source demonstration, we introduce an annotation mechanism for fine-grained parsing of scene and trajectory. A group-wise augmentation strategy is proposed to handle complex multi-object compositions and diverse task constraints. We further present camera-aware processing to align the distribution of generated data with real-world 3D sensor. Empirically, R2RGen substantially enhances data efficiency on extensive experiments and demonstrates strong potential for scaling and application on mobile manipulation.
PDF42October 10, 2025