ChatPaper.aiChatPaper

GR-RL: 정밀한 장기간 로봇 매니퓰레이션을 위한 손재주 향상

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

December 1, 2025
저자: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI

초록

본 논문에서는 일반적인 시각-언어-행동(VLA) 정책을 장기간 정밀 조작에 특화된 고성능 전문가로 전환하는 로봇 학습 프레임워크인 GR-RL을 제안한다. 기존 VLA 정책은 인간의 데모스트레이션이 최적이라고 가정하는 것이 핵심이다. 그러나 고도로 정교하고 정밀한 조작 작업에서는 인간의 데모스트레이션이 노이즈가 많고 차선책일 수 있다고 주장한다. GR-RL은 강화 학습을 통해 데모스트레이션을 필터링, 증강, 강화하는 다단계 학습 파이프라인을 제안한다. 먼저 GR-RL은 시각-언어 조건부 작업 진행도를 학습하여 데모스트레이션 궤적을 필터링하고, 진행에 긍정적으로 기여하는 전이만을 선별한다. 구체적으로, 희소 보상을 사용한 오프라인 강화 학습을 직접 적용함으로써 얻어진 Q-값을 강건한 진행도 함수로 활용할 수 있음을 보인다. 다음으로, GR-RL의 일반화 성능과 성능을 크게 향상시키는 형태적 대칭 증강 기법을 도입한다. 마지막으로 고정밀 제어를 위해 VLA 정책과 실제 실행 행동을 더 잘 정렬하기 위해 잠재 공간 노이즈 예측기를 학습하는 온라인 강화 학습을 수행한다. 이 파이프라인을 통해 GR-RL은 우리가 아는 한, 여러 개의 구멍에 신발끈을 끼워 신발을 묶는 작업(83.3% 성공률)을 자율적으로 수행할 수 있는 최초의 학습 기반 정책이다. 이 작업은 장기간 추론, 밀리미터 수준의 정밀도, 그리고 순응성 있는 연성체 상호작용을 요구한다. GR-RL이 일반적인 로봇 파운데이션 모델이 신뢰할 수 있는 실제 전문가로 특화되는 방향으로 나아가는 디딤돌이 되기를 기대한다.
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.
PDF171December 3, 2025