GR-RL : Vers une dextérité et une précision accrues pour la manipulation robotique de longue durée
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
December 1, 2025
papers.authors: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI
papers.abstract
Nous présentons GR-RL, un cadre d'apprentissage robotique qui transforme une politique vision-langage-action (VLA) généraliste en un spécialiste hautement performant pour la manipulation dextre à long terme. L'optimalité des démonstrations humaines est un postulat central des politiques VLA existantes. Cependant, nous affirmons que dans les tâches de manipulation hautement dextres et précises, les démonstrations humaines sont bruitées et sous-optimales. GR-RL propose un pipeline d'entraînement multi-étapes qui filtre, augmente et renforce les démonstrations par apprentissage par renforcement. Premièrement, GR-RL apprend une fonction de progression de tâche conditionnée par la vision et le langage, filtre les trajectoires de démonstration et ne conserve que les transitions qui contribuent positivement à la progression. Plus précisément, nous montrons qu'en appliquant directement un RL hors-ligne avec une récompense éparse, les valeurs Q résultantes peuvent être interprétées comme une fonction de progression robuste. Ensuite, nous introduisons une augmentation par symétrie morphologique qui améliore considérablement la généralisation et les performances de GR-RL. Enfin, pour mieux aligner la politique VLA avec ses comportements en déploiement pour un contrôle de haute précision, nous effectuons un RL en ligne en apprenant un prédicteur de bruit dans l'espace latent. Grâce à ce pipeline, GR-RL est, à notre connaissance, la première politique basée sur l'apprentissage capable de lacer une chaussure de manière autonome en passant les lacets à travers plusieurs œillets avec un taux de réussite de 83,3 %, une tâche nécessitant un raisonnement à long terme, une précision au niveau millimétrique et une interaction conforme avec des corps mous. Nous espérons que GR-RL constitue une avancée vers la spécialisation des modèles de fondation robotiques généralistes en experts fiables pour le monde réel.
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.