ChatPaper.aiChatPaper

GR-RL: 長期的なロボットマニピュレーションにおける器用さと精密性の追求

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

December 1, 2025
著者: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI

要旨

本論文では、一般化された視覚言語行動(VLA)ポリシーを、長期的で繊細なマニピュレーションにおいて高度に専門化されたポリシーへと変換するロボット学習フレームワーク「GR-RL」を提案する。既存のVLAポリシーでは、人間による実演の最適性を前提とすることが核心となっている。しかし我々は、高度に繊細で精密なマニピュレーションタスクにおいては、人間による実演はノイズが多く、最適ではないと主張する。GR-RLは、実演データを強化学習によってフィルタリング、拡張、強化する多段階の訓練パイプラインを提案する。第一に、GR-RLは視覚・言語条件付きのタスク進捗度を学習し、実演軌跡をフィルタリングして、進捗に寄与する遷移のみを保持する。具体的には、疎な報酬を用いたオフライン強化学習を直接適用することで、得られるQ値をロバストな進捗度関数として扱えることを示す。次に、GR-RLの汎化性能とパフォーマンスを大幅に向上させる形態的対称性拡張を導入する。最後に、高精度制御のためのVLAポリシーとその実動作をより良く一致させるため、潜在空間ノイズ予測器を学習するオンライン強化学習を実行する。このパイプラインにより、GR-RLは、我々の知る限り、複数のアイレットに靴紐を通して靴を結ぶという、長期的な推論、ミリメートルレベルの精度、および柔軟な軟体物との相互作用を必要とするタスクを83.3%の成功率で自律的に達成する初の学習ベースのポリシーである。GR-RLが、汎用ロボット基盤モデルが信頼性の高い実世界の専門家へと特化するための一歩となることを期待する。
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.
PDF171December 3, 2025