ChatPaper.aiChatPaper

R2RGEN: 공간적 일반화 조작을 위한 실시간-실시간 3D 데이터 생성

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

October 9, 2025
저자: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

초록

일반화된 로봇 조작을 목표로, 공간 일반화는 객체, 환경 및 에이전트 자체의 다양한 공간 분포 하에서도 정책이 견고하게 작동할 수 있는 가장 기본적인 능력이다. 이를 달성하기 위해서는 모방 학습을 통해 일반화된 시각운동 정책을 훈련시키기 위해 다양한 공간 구성을 커버할 수 있는 상당한 양의 인간 시연 데이터를 수집해야 한다. 선행 연구들은 최소한의 원본 시연 데이터로부터 공간적으로 다양한 데이터를 획득하기 위해 데이터 생성 기술을 활용하는 유망한 방향을 탐구해왔다. 그러나 대부분의 접근법은 시뮬레이션과 현실 간의 큰 격차에 직면하며, 고정된 기반 시나리오와 사전 정의된 카메라 시점과 같은 제한된 설정에 국한되는 경우가 많다. 본 논문에서는 포인트 클라우드 관측-행동 쌍을 직접 증강하여 현실 세계 데이터를 생성하는 실시간-실시간 3D 데이터 생성 프레임워크(R2RGen)를 제안한다. R2RGen은 시뮬레이터와 렌더링이 필요 없어 효율적이고 플러그 앤 플레이 방식이다. 구체적으로, 단일 원본 시연 데이터가 주어졌을 때, 장면과 궤적의 세밀한 파싱을 위한 주석 메커니즘을 도입한다. 복잡한 다중 객체 구성과 다양한 작업 제약을 처리하기 위해 그룹 단위 증강 전략을 제안한다. 또한, 생성된 데이터의 분포를 현실 세계의 3D 센서와 일치시키기 위해 카메라 인식 처리를 제시한다. 실험적으로, R2RGen은 광범위한 실험에서 데이터 효율성을 크게 향상시키며, 모바일 조작에서의 확장성과 응용 가능성을 강력하게 보여준다.
English
Towards the aim of generalized robotic manipulation, spatial generalization is the most fundamental capability that requires the policy to work robustly under different spatial distribution of objects, environment and agent itself. To achieve this, substantial human demonstrations need to be collected to cover different spatial configurations for training a generalized visuomotor policy via imitation learning. Prior works explore a promising direction that leverages data generation to acquire abundant spatially diverse data from minimal source demonstrations. However, most approaches face significant sim-to-real gap and are often limited to constrained settings, such as fixed-base scenarios and predefined camera viewpoints. In this paper, we propose a real-to-real 3D data generation framework (R2RGen) that directly augments the pointcloud observation-action pairs to generate real-world data. R2RGen is simulator- and rendering-free, thus being efficient and plug-and-play. Specifically, given a single source demonstration, we introduce an annotation mechanism for fine-grained parsing of scene and trajectory. A group-wise augmentation strategy is proposed to handle complex multi-object compositions and diverse task constraints. We further present camera-aware processing to align the distribution of generated data with real-world 3D sensor. Empirically, R2RGen substantially enhances data efficiency on extensive experiments and demonstrates strong potential for scaling and application on mobile manipulation.
PDF22October 10, 2025